Πέμπτη 19 Νοεμβρίου 2015

Πρόβλεψη τιμών της Υ για δοθέν x

Από Quantitative


Εικόνα:Eikona17.jpg

Πρόβλεψη τιμών της Υ για δοθέν xp

Μία απλή πρόβλεψη της τιμής του Y για δοσμένο X υπολογίζεται βάζοντας την τιμή του X στην εξίσωση παλινδρόμησης. Η εξίσωση της ευθείας παλινδρόμησης \hat{Y} = \hat{\alpha} + \hat{\beta}x για δοθέν x=xpαποτελεί μια εκτίμηση της Ε(Υ/Χ=xp)= α + βxp δηλαδή της μέσης αναμενόμενης τιμής του Υ για δοθέν x. Έτσι όταν έχουμε Υ=y ένα σφάλμα είναι αυτό της απόστασης του y από την Ε(Υ/Χ=xp)που είναι κάποιο τυχαίο, "ανεξήγητο" σφάλμα ε και το δεύτερο αυτό της απόστασης του y από την ευθεία πρόβλεψης \hat{Y} ,έστω το e=Y-\hat{Y} . Έτσι η e= Y-\hat{Y} ισούται με την απόκλιση της \hat{Y} από τη μέση τιμής της Υ συν ένα τυχαίο σφάλμα ε, δηλαδή \hat{Y}=\hat{\alpha} + \hat{\beta}x=e. Συνεπώς η μεταβλητότητα για την πρόβλεψη τιμών της μεταβλητής Υ είναι μεγαλύτερη από αυτήν της εκτίμησης της μέσης τιμής.

Η διακύμανση της Y-\hat Y δίνεται από την σχέση, var(Y-\hat Y)=\sigma^2[1+{\frac{1}{n}}=\frac{(x_p-\overline x)^2}{S_{xx}}]
και συνεπώς ένας εκτιμητής αυτής είναι όταν στην παραπάνω σχέση το σ2αντικατασταθεί με S^2_{YX} ο:
S^2_{Y-\hat Y}=S^2_{YX}(1+{\frac{1}{n}}+{\frac{(x_p-\overline x)^2}{S_{xx}}})
ενώ το διάστημα εμπιστοσύνης για την πρόβλεψη του y είναι το:
[\hat y-t_{n-2;\alpha/2}S_{Y\hat{Y}},\hat{y}+t_{n-2;\alpha/2}S_{Y-\hat {Y}} ] όπου S_{Y \hat Y}=\sqrt{S^2_{XY}(1+{\frac{1}{n}}+\frac{(x_p-\overline x)^2}{S_{xx}})}.
Η πραγματική τιμή Υ θα διαφέρει από την \widehat {Y} γιατί:
1) \widehat {Y} είναι εκτιμητής της Ε(Υ) και επομένως υπάρχει σφάλμα δειγματοληψίας, που ισούται με \widehat {Y} - E(Y)
2) H Y δεν είναι ίση με Ε(Υ), γιατί ο διαταρακικός όρος μπορεί να μην πάρει την τιμή μηδέν στην περίοδο που γίνεται η πρόβλεψη. Η διαφορά επομένως είναι ίση με τον διαταρακτικό όρο, δηλαδή: Y − E(Y) = βo + β1X + u − (β0 + β1X) = u



Σκοπός είναι η πρόβλεψη μιας καινούριας παρατήρησης της εξαρτημένης μεταβλητής Y η οποία αντιστοιχεί σε ένα επίπεδο της ανεξάρτητης μεταβλητής X.Πρόβλεψη Νέας Παρατήρησης


Χρησιμοποιώντας το μοντέλο παλινδρόμησης η καινούρια παρατήρηση έχει την τιμή:Σημειακή Εκτίμηση

\widehat{Y_{h}}=\widehat{\alpha}+ \widehat{\beta_{1}} X_{h}
όπου Xi είναι ένα δεδομένο επίπεδο της ανεξάρτητης μεταβλητής και οι παράμετροι α και β0 έχουν εκτιμηθεί με την μέθοδο των ελαχίστων τετραγώνων.


Είναι αρκετα δύσκολο σημείο η πρόβλεψη για μια καινούρια παρατήρηση, διότι υπάρχουν 2 πηγές μεταβλητότητας όπως θα εξηγήσουμε παρακάτω.Διάστημα Πρόβλεψης

Οι παράμετροι του μοντέλου μας είναι άγνωστες, και εκτιμώνται με την μέθοδο των ελαχίστων τετραγώνων.

Η ποσότητα \frac{Y_{h}- \widehat{Y_{h}}}{s(pred)} ακολουθεί την κατανομή t με (n-2) βαθμούς ελευθερίας.

Οι πηγές διακύμανσης στην περίπτωση αυτή είναι:
  • Διακύμανση της κατανομής του Y στο X = Xh, δηλαδή το σ2.
  • Η διακύμανση της δειγματικής κατανομής του \widehat{Y_{h}}, δηλαδή το \sigma^{2}(\widehat{Y_{h}}).

Ένας αμερόληπτος εκτιμητής της διακύμανσης δίνεται απο τον τύπο:
s^{2}(pred)= s_{xy}^{2}+s_{\widehat{Y}}^{2}=s_{XY}^{2} [1+\frac{1}{n} +\frac{(X_{h}- \overline{X})^{2}}{\sum(X_{i}-\overline{X})^{2}}]

Το διάστημα πρόβλεψης για την καινούρια παρατήρηση Yh(new) είναι:
\widehat{Y_{h}} \pm t(1-\frac{\alpha}{2}, n-2) s(pred)

Παραδειγμα 1
Θεωρούμε το μοντέλο απλής γραμμικής παλινδρόμησης ανάμεσα στις μεταβλητές Διαφημιστικά Έξοδα (X) και Πωλήσεις (Y)
> x=c(5,64,33,12,47,89,16)
> y=c(8,36,42,15,36,44,21)
Θέλει η εταιρία να προβλέψει τις πωλήσεις της αν ξοδέψει 27 εκ. ευρώ. Οπότε Xn = 27.
Οι συντελεστές της παλινδρόμησης είναι:
> lm(y~x)
Coefficients:
(Intercept)            x  
    14.1618       0.3867  
Η σημειακή εκτίμηση είναι Yn = 25.0589.
Θέλουμε να υπολογίσουμε ένα 95% διάστημα πρόβλεψης.
Η διακύμανση είναι: s2(pred) = 81.64362
Άρα το διάστημα πρόβλεψης είναι : \widehat{Y_{n}} \pm t(1-a/2,n-2) s(pred)
το ποσοστιαίο σημείο είναι: t(1-0.05/2,7-2)=2.570582
και το διάστημα πρόβλεψης : [1,831929, 48,285871]

Παράδειγμα 2
Θεωρούμε τις μεταβλητές X (ανεξάρτητη) καιY (εξαρτημένη). Για μια καινούρια τιμή της X, Xn = 40 θα υπολογίσουμε ένα διάστημα πρόβλεψης (95%) της Yn.
> x=c(21,25,24,27,31)
> y=c(132,145,153,157,164)
Η διακύμανση είναι: s^{2}(pred)=MSE [1+ \frac{1}{n}+ \frac{(X_{n}-\overline{X})^{2}}{\sum (X_{i}-\overline{X})^{2}}]=4,88968 (33.73)= 164.9289
Το ποσοστιαίο σημείο της κατανομής t είναι t(1 − 0.05 / 2,3) = 3.182446
Η σημειακή εκτίμηση για την εξαρτημένη μεταβλητή είναι Yn = 193.589 απο το υπόδειγμα \widehat{Y}=\widehat{\alpha}+ \widehat{\beta} X.
> lm(y~x)

Coefficients:
(Intercept)            x  
     73.029        3.014  
Εδώ δίνονται οι συντελεστές παλινδρόμησης.
Τελικά, το διάστημα πρόβλεψης είναι: \widehat{Y_{n}} \pm t(1-a/2,n-2) s(pred)

Άρα: [152,71856, 234,45944]

Δεν υπάρχουν σχόλια:

Δημοσίευση σχολίου