Από Quantitative
όπου
.
Η ποσότητα
ακολουθεί την κατανομή t με (n-2) βαθμούς ελευθερίας.
Οι πηγές διακύμανσης στην περίπτωση αυτή είναι:
Ένας αμερόληπτος εκτιμητής της διακύμανσης δίνεται απο τον τύπο:
Πρόβλεψη τιμών της Υ για δοθέν xp
Μία απλή πρόβλεψη της τιμής του Y για δοσμένο X υπολογίζεται βάζοντας την τιμή του X στην εξίσωση παλινδρόμησης. Η εξίσωση της ευθείας παλινδρόμησης
=
+
x για δοθέν x=xpαποτελεί μια εκτίμηση της Ε(Υ/Χ=xp)= α + βxp δηλαδή της μέσης αναμενόμενης τιμής του Υ για δοθέν x. Έτσι όταν έχουμε Υ=y ένα σφάλμα είναι αυτό της απόστασης του y από την Ε(Υ/Χ=xp)που είναι κάποιο τυχαίο, "ανεξήγητο" σφάλμα ε και το δεύτερο αυτό της απόστασης του y από την ευθεία πρόβλεψης
,έστω το e=Y-
. Έτσι η e= Y-
ισούται με την απόκλιση της
από τη μέση τιμής της Υ συν ένα τυχαίο σφάλμα ε, δηλαδή
=
+
x=e. Συνεπώς η μεταβλητότητα για την πρόβλεψη τιμών της μεταβλητής Υ είναι μεγαλύτερη από αυτήν της εκτίμησης της μέσης τιμής.
Η διακύμανση της
δίνεται από την σχέση, ![var(Y-\hat Y)=\sigma^2[1+{\frac{1}{n}}=\frac{(x_p-\overline x)^2}{S_{xx}}]](https://lh3.googleusercontent.com/blogger_img_proxy/AEn0k_vqQF4vUv0sf56l0kcR6vDqT4_l_Y9ur8iwRmRpSrlMY3C_Ez69FxzEi96ePGhUktjA5cxkscnjTe94GuGUNDP-KJt5rblpz__52w0y7wulXP0ONIEO776x_zRK_7D4BylxqghuBZEq_0u14TdOLPcT5prsgtFwwuXLJIXAO41Q4IO571k=s0-d)
και συνεπώς ένας εκτιμητής αυτής είναι όταν στην παραπάνω σχέση το σ2αντικατασταθεί με
ο:
ενώ το διάστημα εμπιστοσύνης για την πρόβλεψη του y είναι το:
Η πραγματική τιμή Υ θα διαφέρει από την
γιατί:
1)
είναι εκτιμητής της Ε(Υ) και επομένως υπάρχει σφάλμα δειγματοληψίας, που ισούται με 
2) H Y δεν είναι ίση με Ε(Υ), γιατί ο διαταρακικός όρος μπορεί να μην πάρει την τιμή μηδέν στην περίοδο που γίνεται η πρόβλεψη. Η διαφορά επομένως είναι ίση με τον διαταρακτικό όρο, δηλαδή: Y − E(Y) = βo + β1X + u − (β0 + β1X) = u
Σκοπός είναι η πρόβλεψη μιας καινούριας παρατήρησης της εξαρτημένης μεταβλητής Y η οποία αντιστοιχεί σε ένα επίπεδο της ανεξάρτητης μεταβλητής X.Πρόβλεψη Νέας Παρατήρησης
Χρησιμοποιώντας το μοντέλο παλινδρόμησης η καινούρια παρατήρηση έχει την τιμή:Σημειακή Εκτίμηση
όπου Xi είναι ένα δεδομένο επίπεδο της ανεξάρτητης μεταβλητής και οι παράμετροι α και β0 έχουν εκτιμηθεί με την μέθοδο των ελαχίστων τετραγώνων.
Είναι αρκετα δύσκολο σημείο η πρόβλεψη για μια καινούρια παρατήρηση, διότι υπάρχουν 2 πηγές μεταβλητότητας όπως θα εξηγήσουμε παρακάτω.Διάστημα Πρόβλεψης
Οι παράμετροι του μοντέλου μας είναι άγνωστες, και εκτιμώνται με την μέθοδο των ελαχίστων τετραγώνων.
Η ποσότητα
Οι πηγές διακύμανσης στην περίπτωση αυτή είναι:
- Διακύμανση της κατανομής του Y στο X = Xh, δηλαδή το σ2.
- Η διακύμανση της δειγματικής κατανομής του
, δηλαδή το
.
Ένας αμερόληπτος εκτιμητής της διακύμανσης δίνεται απο τον τύπο:
Το διάστημα πρόβλεψης για την καινούρια παρατήρηση Yh(new) είναι:
Παραδειγμα 1
Θεωρούμε το μοντέλο απλής γραμμικής παλινδρόμησης ανάμεσα στις μεταβλητές Διαφημιστικά Έξοδα (X) και Πωλήσεις (Y)
> x=c(5,64,33,12,47,89,16) > y=c(8,36,42,15,36,44,21)
Θέλει η εταιρία να προβλέψει τις πωλήσεις της αν ξοδέψει 27 εκ. ευρώ. Οπότε Xn = 27.
Οι συντελεστές της παλινδρόμησης είναι:
> lm(y~x)
Coefficients:
(Intercept) x
14.1618 0.3867
Η σημειακή εκτίμηση είναι Yn = 25.0589.
Θέλουμε να υπολογίσουμε ένα 95% διάστημα πρόβλεψης.
Η διακύμανση είναι: s2(pred) = 81.64362
Άρα το διάστημα πρόβλεψης είναι : 
το ποσοστιαίο σημείο είναι: t(1-0.05/2,7-2)=2.570582
και το διάστημα πρόβλεψης : [1,831929, 48,285871]
Παράδειγμα 2
Θεωρούμε τις μεταβλητές X (ανεξάρτητη) καιY (εξαρτημένη). Για μια καινούρια τιμή της X, Xn = 40 θα υπολογίσουμε ένα διάστημα πρόβλεψης (95%) της Yn.
> x=c(21,25,24,27,31) > y=c(132,145,153,157,164)
Η διακύμανση είναι: ![s^{2}(pred)=MSE [1+ \frac{1}{n}+ \frac{(X_{n}-\overline{X})^{2}}{\sum (X_{i}-\overline{X})^{2}}]=4,88968 (33.73)= 164.9289](https://lh3.googleusercontent.com/blogger_img_proxy/AEn0k_v9MMmoLA2XTRDM_1VUHJsbzDiOMMCwHizQx40LOUQ9kwZfJUJx4hukRvqPU5JC0ZEBXq0TlHifGimT3K7j89xCj2XqOqC_TFLwZkS6lCrECahtY0Ajvuoseb3aa0JHDRU_BfPN5Tava2XQCeiKAC3Wdq_HWNLcNrs8otWWgM-nU5RJ_4U=s0-d)
Το ποσοστιαίο σημείο της κατανομής t είναι t(1 − 0.05 / 2,3) = 3.182446
Η σημειακή εκτίμηση για την εξαρτημένη μεταβλητή είναι Yn = 193.589 απο το υπόδειγμα
.
> lm(y~x)
Coefficients:
(Intercept) x
73.029 3.014
Εδώ δίνονται οι συντελεστές παλινδρόμησης.
Τελικά, το διάστημα πρόβλεψης είναι: 
Άρα: [152,71856, 234,45944]
Δεν υπάρχουν σχόλια:
Δημοσίευση σχολίου