Τετάρτη 25 Νοεμβρίου 2015

Στατιστικά συμπεράσματα στο πολυδιάστατο γραμμικό μοντέλο

Από Quantitative


Θεωρούμε οτι τα τυχαία σφάλματα vi του πολυδιάστατου γραμμικού μοντέλου Y = a + b1x1 + b2x2 + ... + bkxk + v ακολουθούν την Κανονική κατανομή Ν(0,1) και χωρίς βλάβη της γενικότητας να περιέχει μόνο τις δύο ανεξάρτητες τ.μ. X1,X2. Τότε μπορούμε εύκολα να συνοψίσουμε και να αποδείξουμε τα ακόλουθα:

1. Οι κατανομές των εκτιμητών των παραμέτρων

Οι εκτιμητές \hat{a},\hat{b_1},\hat{b_2} ακολουθούν Κανονικές κατανομές με μέσους a,b1 και b2.
Αν με r12 συμβολίσουμε τον συντελεστή συσχέτισης μεταξύ των ανεξάρτητων τυχαίων μεταβλητών X1 και X2, με

S11 = \sum_{i=1}^{n}x^2_{1i}-n\bar{x_1}^2 και S22 = \sum_{i=1}^{n}x^2_{2i}-n\bar{x_2}^2,

τότε οι διακυμάνσεις δίνονται από τις εξής σχέσεις

var(\hat{b_1}) = \frac{s^2}{S_{11}(1-r^2_{12})},

var(\hat{b_2}) = \frac{s^2}{S_{22}(1-r^2_{12})},

var(\hat{a}) = \frac{s^2}{n} + \bar {x_1}^2var(\hat{b_1} )+ 2\bar{x_1}\bar{x_2}Cov(\hat{b_1},\hat{b_2}) + \bar{x_2}^2var(\hat{b_2}),

Cov (\hat{b_1},\hat{b_2}) = \frac{-s^2r_{12}^2}{S_{12}(1-r_{12}^2)},
Cov (\hat{a},\hat{b_1}) = -[\bar{x_1}var(\hat{b_1}) + \bar{x_2}Cov(\hat{b_1},\hat{b_2})],

Cov (\hat{a},\hat{b_2}) = -[\bar{x_1}Cov(\hat{b_1},\hat{b_2}) + \bar{x_2}var(\hat{b_2})].

Από τους τύπους των διακυμάνσεων παρατηρούμε οτι όσο μεγαλύτερη είναι η τιμή r12(δηλ. η γραμμική συσχέτιση της μεταβλητής x1 με την x2) τόσο μεγαλύτερες διακυμάνσεις έχουμε. Εδώ καταλαβαίνουμε οτι η γραμμική συσχέτιση μεταξύ δύο ανεξάρτητων μεταβλητών είναι ανεπιθύμητη ιδιότητα. Επίσης μπορεί να δειχθεί οτι:
\frac{SSE}{s^2} = \sum_{j=1}^{n}(x_1-\hat{x_1})^2/s2
ακολουθεί την x2-κατανομή με n-1-2=n-3 βαθμούς ελευθερίας.
Έτσι με βάση τα τελευταία έχουμε οτι:

\frac{\hat{a}-a}{\sqrt{var(\hat{a})}}\frac{\hat{b_1}-\hat{b_1}}{\sqrt{var(\hat{b_1})}}\frac{\hat{b_2}-\hat{b_2}}{\sqrt{var(\hat{b_2})}}
την t-κατανομή με n-3 αριθμούς ελευθερίας.
Στην περίπτωση που είχαμε k ανεξάρτητες μεταβλητές στο μοντέλο μας, τότε η \frac{SSE}{s^2} θα ακολουθούσε μια x2-κατανομή με n-(k+1)βαθμούς ελευθερίας, ενώ οι

\frac{\hat{a}-a}{\sqrt{var(\hat{a})}}\frac{\hat{b_i}-b_i}{\sqrt{var(\hat{b_i})}}, i=1,...,k
θα ακολουθούσαν την t-κατανομή με n-(k+1) βαθμούς ελευθερίας.
2. Διαστήματα εμπιστοσύνης των παραμέτρων
Το διάστημα εμπιστοσύνης με συντελεστή εμπιστοσύνης 1-a για την παράμετρο bi, είναι το
[\hat{b_i}-t_{n-(k+1); a/2}\sqrt{var(\hat{b_i})},\hat{b_i}+t_{n-(k+1); a/2}\sqrt{var(\hat{b_i}) }, i=1,...,k.
3. Έλεγχοι Υποθέσεων των παραμέτρων
Για τον έλεγχο της υπόθεσης Η:bi=0 έναντι της Α:bi\neq0 σε ε.σ. α, αποδεχόμαστε την Α (που σημαίνει οτι η μεταβλητή x1 είναι στατιστικά σημαντική μεταβλητή για την εξαρτημένη μεταβλητή Υ παρουσία των άλλων) όταν
\left|\frac{\hat{b_i}-0}{\sqrt{var(\hat{b_i})}}\right|\geqtn − (k + 1);a / 2
4) Ιδιότητες και διακυμάνσεις των εκτιμητών
Στην περίπτωση μιας ανεξάρτητης μεταβητής, οι εκτιμητές που προκύπτουν με τη μέθοδο των ελαχίστων τετραγώνων είναι άριστοι, γραμμικοί, αμερόληπτοι. Αυτό ισχύει και για το πολυμεταβλητό γραμμικό υπόδειγμα με Κ ανεξάρτητες μεταβλητές, οπότε έχουμε την ακόλουθη γενική μορφή του θεωρήματος των Gauss-Markov.
Στο κλασσικό γραμμικό υπόδειγμα, οι εκτιμητές των συντελεστών β01,.....βkπου προκύπτουν από τη μέθοδο των ελαχίστων τετραγωνων, δηλαδή,
\widehat \beta = (X'X)^{-1} X'Y
είναι άριστοι γραμμικοί, αμερόληπτοι, οι δε διακυμάνσεις και συνδιακυμάνσεις τους δίνονται από τη σχέση:
V(\widehat \beta) = \sigma^2 (X'X)^{-1}
Η μήτρα V(\widehat \beta) είναι διαστάσεων (Κ+1)*(Κ+1) και τα διαγώνια στοιχεία δίνουν τις διακυμάνσεις των εκτιμητών \widehat \beta_0, \widehat \beta_1, ..... \widehat \beta_k ενώ τα υπόλοιπα τις συνδιακυμάνσεις.
Για την εκτίμηση των διακυμάνσεων - συνδιακυμάνσεων των συντελεστών, πρέπει πρώτα να έχουμε μια εκτιμηση της άγνωστης διακύμανσης σ2 του διαταρακτικού όρου. Ένας αμερόληπτος εκτιμητής της σ2 είναι ο ακόλουθος:
S^2 = \Sigma \widehat u^2_t / (T - K - 1)
Επομένως, οι αμερόληπτο εκτιμητές των διακυμάνσεων - συνδιακυμάνσεων των συντελεστών \widehat \beta_0, \widehat \beta_1, ..... \widehat \beta_k είναι:
S_{\widehat \beta} = S 1^2(X'X)^{-1}
Αν τώρα οι ερμηνευτικές μεταβλητές εκφράζονται ως αποκλίσεις από τους μέσους, οπότε αντί της μήτρας (X'X) − 1 έχουμε την μήτρα (x'x) − 1 οι παραπάνω σχέσεις δίνουν τις διακυμάνσεις - συνδιακυμάνσεις των \widehat \beta_0, \widehat \beta_1, ..... \widehat \beta_k, αλλά όχι του σταθερού όρου β0

Παράδειγμα

Το κόστος της διαφήμισης ανά σελίδα σε 48 περιοδικλα ευρείας κυκλοφορίας έχει διαπιστωθεί ότι εξαρτάται από τον αριθμό αντιτύπωνπου πωλείται έκαστο, από το φύλο του του αναγνωστικού κοινού και το εισόδημα των αναγνωστών. Έτσι είχαμε τα ακόλουθα δεδομένα:

α/α ΚΟΣΤΟΣ ΑΝΑ ΣΕΛΙΔΑ X1(πωλήσεις αντιτύπων) X2(ποσοστά ανδρών) X3(ετήσιο εισόδημα)
1            73.820             8.000                   22            23.241
2            35.140             845                     72            30.884  
3            23.795             725                     88            25.982 
4            28.980             2.250                   17            22.785
5            21.886             1.250                   42            16.505
6            62.7750            7.450                   13            21.785 
7            33.760             2.000                   79            24.337
8            25.090             700                     74            36.783
9            30.040             670                     71            35.204  
10           24.340             1.800                   6             21.828  
11           26.625             1.025                   82            32.949
12           58.020             5.000                   13            21.828
13           16.200             650                     8             25.358 
14           20.400             850                     78            23.056 
15           25.430             1.000                   19            23.726  
16           19.775             800                     16            24.198
17           48.000             5.000                   12            21.583
18           16.280             1.000                   9             23.660
19           59.830             6.200                   12            20.690   
20           24.815             1.600                   81            22.568 
21           25.740             1.000                   58            31.587
22           21.905             750                     84            23.878  
23           7.845              450                     16            24.107
24           26.500             4.637                   40            19.969 
25           95.575             8.400                   55            26.294 
26           9.900              580                     72            22.888
27           63.850             2.950                   62            26.719
28           28.475             1.500                   82            23.596
29           36.960             1.650                   22            20.779
30           56.425             2.350                   40            23.971 
31           55.710             5.000                   78            24.051
32           7.220              650                     36            19.329 
33           26.932             1.600                   81            25.474
34           26.820             1.800                   80            26.542 
35           97.700             17.900                  44            21.802 
36           42.675             3.800                   11            22.794 
37           18.775             630                     89            28.093 
38           17.770             700                     66            24.074 
39           24.000             720                     68            29.531
40           19.250             1.500                   9             21.251
41           54.165             2.250                   80            26.275 
42           21.350             3.400                   35            19.156  
43           85.870             4.400                   56            26.908 
44           13.435             1.400                   18            14.325 
45           77.400             17.345                  45            20.461
46           42.510             2.050                   63            26.998  
47           18.000             950                     11            23.452  
48           60.435             7.125                   8             21.910 
Μέσος        36.629             3.048                 46.3   24.277            
Τυπική       22.973             3.756                   29.1           4.271 
απόκλιση
Να εξετασθεί κατά πόσο στατιστικά σημαντικοί είναι οι συντελεστές παλινδρόμησης. (α=-8.643, β1=528.15, β2=-11).
Λύση
Έστ πως θέλουμε να ελέγξουμε την Η: β2=0 έναντι της εναλλακτικής Α:β2=-11, σε επίπεδο σημαντικότητας α=0.05. Το \ t_{48-3;0.05/2}= t_{45;0.025}\approx Z_{0.025} =1.96 και t=-0.14. Επομένως αποδεχόμαστε την Η γιατί η τιμή -11 δεν είναι στατιστικά σημαντική. Έτσι μπορούμε να συμπεράνουμε ότι η μεταβλητή "ποσοστό ανδρών αναγνωστών) δε μας προσφέρει ουσιαστικές πληροφορίες για το Υ. Το ίδιο μπορεί να δειχθεί και για την τιμή α=-8.643 όχι όμως και για την β1=530.4 .

Δεν υπάρχουν σχόλια:

Δημοσίευση σχολίου