Τετάρτη 18 Νοεμβρίου 2015

Μέση εκτίμηση της εξαρτημένης μεταβλητής Υ για δοθέν x της ανεξάρτητης Χ

Από Quantitative


Γενικά

Στην ανάλυση παλινδρόμησης, είναι σύνηθες να θέλουμε να εκτιμήσουμε την μέση τιμή της μιας ή περισσοτέρων συναρτήσεων κατανομών της Y, για συγκεκριμένες τιμές της εξαρτημένης μεταβλτής X. Θεωρώνας Xh το επίπεδο της μεταβλητής X για το οποίο θέλουμε να εκτιμήσουμε την μέση τιμή της εξαρτημένης μεταβλητής, το Xh μπορεί να είναι μια τιμή η οποία έχει ήδη παρατηρηθεί στο δείγμα, ή κάποια άλλη τιμή της ανεξάρτητης μεταβλητής, η οποία έχει νόημα στην επεξήγηση του μοντέλου.

]

Εκτίμηση E(Yh | Xh)

Το φάσμα του διαστήματος πρόβλεψης για το E[Y|X] είναι στενότερο στην περιοχή της μέσης τιμής του X. Τα φάσμα του διαστήματος γίνεται ευρύτερο καθώς απομακρυνόμαστε από το μέσο του X. Οι προβλέψεις γίνονται αναξιόπιστες όταν βρισκόμαστε έξω από το εύρος του δείγματος. Θεωρούμε ότι οι δύο μεταβλητές Υ και Χ συσχετίζονται γραμμικά σύμφωνα με το πιθανό θεωρητικό μοντέλο όπου Ε(Υ|Χ=x)=β0 + β1x αντιπροσωπεύει τη μέση αναμενόμενη τιμή της Υ για δοθέν x, δηλαδή η εύρεση ή εκτίμηση των τιμών της τομής και της κλίση της γραμμής παλινδρόμησης.Η ευθεία παλινδρόμησης είναι η:

Σημειακή Εκτίμηση E(Yh | Xh)

\widehat{Y_{h}}=b_{0}+b_{1}X_{h}+e
Όπου b0 ,προσεγγίζει το σταθερό όρο της γραμμής παλινδρόμησης, β0 , b1 προσεγγίζει την κλίση της γραμμής παλινδρόμησης, β1 και e αναπαριστά τα σφάλματα – τα κατάλοιπα που προκυπτουν από τις προσεγγιστικές τιμές της γραμμής παλινδρόμησης b0 + b1 X στο σύνολο των n σημείων. Έτσι η \widehat{Y_{h}} χρησιμοποιείται για την εκτίμηση της μέσης τιμής της Υ καθώς και για την πρόβλεψη των τιμών της Υ. Τα σφάλματα για την εκτίμηση και την πρόβλεψη είναι διάφορα μεταξύ τους.

  • Το σφάλμα για δοθέν x είναι η απόσταση των ευθειών Ε(Υ|Χ=x)=β0 + β1x και \widehat{Y_{h}}=b_{0}+b_{1}X_{h} στο σημείο x δοθέν.

Δειγματική κατανομή του Yh
Το Yh ακολουθεί κανονική κατανομή, με μέσο και διακύμανση που δίνονται παρακάτω:
  • E(\widehat{Y_{h}})=E(Y_{h})
  • \sigma^{2}(\widehat{Y_{h}})=\sigma^{2}[\frac{1}{n}+ \frac{(X_{h}-\overline{X})^{2}}{\sum (X_{i}-\overline{X})^{2}}]
Ένας εκτιμητής για την διακύμανση είναι: s^{2}(\widehat{Y_{h}})=s_{xy}^{2}[\frac{1}{n}+ \frac{(X_{h}-\overline{X})^{2}}{\sum (X_{i}-\overline{X})^{2}}]

Δειγματική κατανομή της ποσότητας (\widehat{Y_{h}}- E(Y_{h})) / (s(Y_{h}))
Η ποσότητα (\widehat{Y_{h}}- E(Y_{h})) / (s(Y_{h})) ακολουθεί την κατανομή t(n-2) (με 2 βαθμούς ελευθερίας)


Διαστήματα Εμπιστοσύνης για το E(Yh | Xh)
Χρησιμοποιώντας την κατανομή t ένα (1-α)% διάστημα εμπιστοσύνης δίνεται απο τον τύπο:
[\widehat{Y_{h}}- t_{n-2;\frac{\alpha}{2}}\sqrt{s^2(\widehat{Y_{h}})},\widehat{Y_{h}}+ t_{n-2;\frac{\alpha}{2}}\sqrt{s^2(\widehat{Y_{h}})}]

Παράδειγμα
Θεωρούμε τα δεδομένα:
> y=c(412,447,459,468,501,524,555,562)
> x=c(42,45,47,49,51,52,59,60)
όπου Χ η ανεξάρτητη και Υ η εξαρτημένη μεταβλητή αντίστοιχα.
Θα υπολογίσουμε ένα διάστημα εμπιστοσύνης (95% επιπέδου σημαντικότητας) για το E(Yn | X).
Θεωρούμε μια τιμή της ανεξάρτητης μεταβλητής και θέλουμε να δημιουργήσουμε ένα διάστημα εμπιστοσύνης για την εξαρτημένη μεταβλητή. Ουσιαστικά δημιουργούμε ένα διάστημα εμπιστοσύνης για το E(Yn | X).
Θεωρούμε μια τιμή Xn = 63 της ανεξάρτητης μεταβλητής και θα εκτιμήσουμε το δ.ε. για την E(Yn | X).
> lm(y~x)
 Coefficients:
 (Intercept)           x  
     71.991          8.277  
Το μοντέλο παλινδρόμησης είναι: \widehat{Y}=71.991+ 8.277 X
Άρα \widehat{Y}=593.442
Η διακύμανση s_{\widehat{Y_{h}}}^{2}=MSE [\frac{1}{n} + \frac{(X_{n}-\overline{X})^{2}}{\sum (X_{i}-\overline{X})^{2}}]
> anova(lm(y~x))
Analysis of Variance Table
Response: y
          Df  Sum Sq Mean Sq F value    Pr(>F)    
x          1 19309.6 19309.6  155.22 1.634e-05 ***
Residuals  6   746.4   124.4         
Για το μοντέλο παλινδρόμησης εμφανίζουμε τον πίνακα ανάλυσης διακύμανσης κυρίως για το MSE.
s_{\widehat{Y_{n}}}^{2}=83.13561
Για την κατανομή t, το ποσοστιαίο σημείο t(1 − 0.05 / 2,6) = 2.446912
Το 95% διάστημα εμπιστοσύνης είναι: \widehat{Y_{n}} \pm t(1-a/2, n-2) s_{\widehat{Y_{n}}}
593.442 \pm 2.446912 (9.1178731)
[571.13137, 615.75263 ]


Η εξαρτημένη τ.μ. Y ακολουθεί κάποια κατανομή με αθροιστική συνάρτηση κατανομής FY (y|X = x), δεσμευμένη για κάθε τιμή x της μεταβλητής X. Περιορίζουμε τη μελέτη του προβλήματος στη μέση τιμή και υποθέτουμε εδώ ότι η εξάρτηση εκφράζεται από μια γραμμική σχέση

E(Y |X = x) = a + bx

και η σχέση αυτή λέγεται γραμμική παλινδρόμηση της Y στη X (linear regression)

οι τιμές της Y για κάθε τιμή X = x παλινδρομούνται γύρω από το σημείο y = E(Y |X = x) της ευθείας y = a + bx, δηλαδή οι τιμές της Y για κάθε τιμή της X ϐρίσκονται πάνω και κάτω από αυτήν την ευθεία].
Το πρόβλημα της παλινδρόμησης είναι η εύρεση των παραμέτρων α και β που εκφρά- Ϲουν καλύτερα τη γραμμική εξάρτηση της Y από τη X. Κάθε Ϲεύγος τιμών (α, β) καθορίζει μια διαφορετική γραμμική σχέση που εκφράζεται γεωμετρικά από ευθεία γραμμή και οι δύό παράμετροι ορίζονται ως :

Ο σταθερός όρος α είναι η τιμή του y για x = 0 (intercept).
Ο συντελεστής β του x είναι η κλίση (slope) της ευθείας ή αλλιώς ο συντελεστής παλινδρόμησης (regression coefficient).
Αν ϑεωρήσουμε τις παρατηρήσεις (x1, y1), . . . , (xn, yn) και το διάγραμμα διασποράς που τις απεικονίζει σαν σημεία, μπορούμε να σχηματίσουμε πολλές τέτοιες ευθείες που προσεγγίζουν την υποτιθέμενη γραμμική εξάρτηση της E(Y |X = x) ως προς X.

Για κάποια τιμή xi της X αντιστοιχούν διαφορετικές τιμές yi της Y , σύμφωνα με κάποια κατανομή πιθανότητας FY (yi|X = xi), δηλαδή μπορούμε να ϑεωρήσουμε την yi σαν τ.μ. [ϑα ήταν σωστότερο να χρησιμοποιούσαμε το συμβολισμό Yi αντί yi, όπου ο δείκτης i ορίζει την εξάρτηση από το X = xi, αλλά ϑα χρησιμοποιήσουμε εδώ τον ίδιο συμβολισμό yi για την τ.μ. και την παρατήρηση].
Η τ.μ. yi για κάποια τιμή xi της X ϑα δίνεται κάτω από την υπόθεση της γραμμικής παλινδρόμησης ως yi = α + βxi + ǫi, όπου ǫi είναι κι αυτή τ.μ., λέγεται σφάλμα παλινδρόμησης (regression error) κι ορίζεται ως η διαφορά της yi από τη δεσμευμένη μέση τιμή E(Y |X = xi).

Για την ανάλυση της γραμμικής παλινδρόμησης κάνουμε τις παρακάτω υποθέσεις :
* Η μεταβλητή X είναι ελεγχόμενη για το πρόβλημα που μελετάμε, δηλαδή γνωρίζουμε τις τιμές της χωρίς καμιά αμφιβολία.
* Η σχέση ισχύει, δηλαδή η εξάρτηση της Y από τη X είναι γραμμική.
* E(ǫi) = 0 και Var(ǫi) = σ2 ǫ για κάθε τιμή xi της X, δηλαδή το σφάλμα παλινδρόμησης έχει μέση τιμή μηδέν για κάθε τιμή της X και η διασπορά του είναι σταθερή και δεν εξαρτάται από τη X.
Η τελευταία συνθήκη είναι ισοδύναμη με τη συνθήκη Var(Y |X = x) = σY |X, δηλαδή ότι η διασπορά της εξαρτημένης μεταβλητής Y είναι η ίδια για κάθε τιμή της X και μάλιστα είναι σ2 Y |X = σ2 ǫ ≡ σ2.

Η εκτίμηση των παραμέτρων α και β γίνεται με τη μέθοδο των ελαχίστων τετραγώνων (method of least squares). Η μέθοδος λέγεται έτσι γιατί ϐρίσκει την ευθεία παλινδρόμησης με παραμέτρους a και b έτσι ώστε το άθροισμα των τετραγώνων των κατακόρυφων αποστάσεων των σημείων από την ευθεία να είναι το ελάχιστο. Για να λύσουμε αυτό το πρόβλημα ϑέτουμε τις μερικές παραγώγους ως προς τα a και b ίσες με το μηδέν και καταλήγουμε στο σύστημα δύο εξισώσεων με δύο αγνώστους από το οποίο παίρνουμε τις εκτιμήσεις των a και b.όπου SSx και SSxyείναι η δειγματική συνδιασπορά των X και Y και η δειγματική διασπορά της X. Τα a και b ορίζουν την ευθεία, \hat{y} = a + b\hat{x}, που λέγεται κι ευθεία ελαχίστων τετραγώνων.
Άθροισμα τετραγώνων και γινόμενα:
SS_x=\sum(x-\hat{x})^2=\sum x^2-\frac{(\sum x)^2}{n}
SS_y=\sum(y-\hat{y})^2 =\sum y^2 -\frac {(\sum y)^2} {n}
SS_{xy}=\sum(x-\hat{x})(y-\hat{y})=\sum xy-\frac{\sum x \sum y}{n}

Ελαχίστων−τετραγώνων εκτιμητές παλινδρόμησης:

b=\frac{SS_xy}{SS_x}

a=\hat{y}-b\hat{x}

Δεν υπάρχουν σχόλια:

Δημοσίευση σχολίου