Τρίτη 24 Νοεμβρίου 2015

Εκτίμηση διακύμανσης της πολλαπλής παλινδρόμησης και πολυδιάστατος συντελεστής συσχέτισης

Από Quantitative


Γενικά

Έχουμε συναντήσει οτι με τη βοήθεια της Μεθόδου των Ελαχίστων Τετραγώνων το πολυδιάστατο γραμμικό μοντέλο εκτιμάται από την:
\hat{Y} = \hat{a} + \hat{b_1}x_1+...+\hat{b_k}x_k,
όπου τα \hat{a},\hat{b_1},...,\hat{b_k} επιλέγονται έτσι ώστε να ελαχιστοποιούν την:
SSE = \sum_{i=1}^{n}(Y_i-\hat{Y_i})^2
Η τελευταία ποσότητα, όπως και στην απλή παλινδρόμηση, χρησιμοποιείται για να εκτιμήσουμε τη διακύμανση s2. Έτσι ένας εκτιμητής για το s2 της Πολυδιάστατης Γραμμικής Παλινδρόμησης με k ανεξάρτητες μεταβλητές ορίζεται από τη σχέση:
S2 = (S^2_{Y(1...k)}) = \frac{SSE}{n- (plithos~parametrwn)} = \frac{SSE}{n-(k+1)}

Γράψαμε το συμβολισμό μέσα στην παρένθεση για να υπενθυμίσουμε στον αναγνώστη οτι έχουμε τη διακύμανση των τιμών της Y σε σχέση με τις k ανεξάρτητες μεταβλητές.
Η μέση μεταβλητότητα είναι αμερόληπτος εκτιμητής της διακύμανσης,S2, των σφαλμάτων του πληθυσμού , e , και συμβολίζεται : MSE=\frac {SSE} {n-(k-1)}=\frac {\sum_(Y-\hat{Y})^2}{n-(k-1)}

Προσεγγιστικά : S=\sqrt MSE<math>    Ο δειγματοληπτικός συντελεστής συσχέτισης <math>r^2, αποτελεί ένα μέτρο κατά πόσο τα δεδομένα μας είναι προσαρμοσμένα γύρω από την ευθεία παλινδρόμησης. Για να μετρήσουμε πόσο καλά προσαρμόζονται γύρω από το υπερεπίπεδο παλινδρόμησης χρησιμοποιούμε τον πολυδιάστατο συντελεστή παλινδρόμησης που το συμβολίζουμε με R2.

R2 = \frac{SSR}{SST} = 1-\frac{SSE}{SST},
0\leqR2\leq1
  • SS: ολική απόκλιση
  • SSR: ερμηνεύσιμη απόκλιση
  • SSE: μη ερμηνεύσιμη απόκλιση
όπου,

SSR = \sum_{i=1}^{n}(\hat{Y_i}-\bar{Y_i})^2

SSE = \sum_{i=1}^{n}(Y_i-\hat{Y_i})^2

SS = \sum_{i=1}^{n}(Y_i-\bar{Y_i})^2

Ένας άλλος συμβολισμός για το R2 είναι το R^2_{Y(1...k)}, που υποδηλώνει τη συσχέτιση του Y με όλες τις k μεταβλητές μας.
Γενικά ο R2 πρέπει να χρησιμοποιείται όταν το δείγμα μας είναι αρκετά μεγάλο σε σχέση με τον αριθμό των παραμέτρων μας. Αν δεν συμβαίνει το τελευταίο, χρησιμοποιούμε τον πολυδιάστατο συντελεστή διόρθωσης που τον συμβολίζουμε με R^2_k και ορίζεται από την:
R^2_k = 1-\frac{n-1}{n-(k+1)}\frac{SSE}{SS}) = 1-(n-1)\frac{S^2}{SS} = 1-\frac{n-1}{n-(k+1)(1-R^2)}
Σε αντίθεση με τον R^2, R^2_k αυξάνει ή φθίνει όταν προστίθενται και νέες μεταβλητές στο μοντέλο μας. Έτσι αν μια νέα μεταβλητή μας ελαττώνει τη διακύμανση S2, έχουμε σαν συνέπεια την αύξηση του R^2_k. Αντίθετα, αν έχουμε αύξηση της διακύμανσης, τότε έχουμε την ελάττωση του R^2_k.

Ο προσαρμοσμένος συντελεστής πολλαπλού προσδιορισμού , \overline{R}^2,είναι ο συντελεστής προσδιορισμού με τα SSE και SST να διαιρούνται από τους αντίστοιχους βαθμούς ελευθερίας : \overline{R}^2=1-\frac{\frac{SSE}{n-(k+1)}}{\frac{SST}{n-1}}=1-(\frac{n-1}{n-(k+1)}) \frac{SSE}{SST}=\frac {MSE}{MST}

Συντελεστής Πολλαπλού Προδιορισμού (Coefficient of Multiple Determination)

Ορίζεται ανάλογα με την απλή παλινδρόμηση. Δηλαδή:
R^{2}=\frac{SSR}{SST}= 1- \frac{SSE}{SST}
όπου SSR=\sum (\widehat{Y_{i}}-\overline{Y})^{2} (άθροισμα τετραγώνων παλινδρόμησης)
SSE=\sum (Y_{i} - \widehat{Y_{i}})^{2} (άθροισμα τετραγώνων καταλοίπων)
SST= \sum (Y_{i}- \overline{Y})^{2} (συνολικό τετραγωνικό σφάλμα)

Ισχύει ότι 0\leq R^{2} \leq 1.

Παρατηρήσεις

  • Η ερμηνεία είναι οτι το R2 δείχνει το ποσοστό της διακύμανσης του Y το οποίο ερμηνεύεται απο την εξίσωση παλινδρόμησης (δηλαδή απο τις μεταβλητές Xi).
  • Το R2 = 0 όταν όλες οι παράμετροι της παλινδρόμησης βi , i=1,...,k είναι μηδέν. Το R2 = 1 όταν όλες οι παρατηρήσεις βρίσκονται πάνω στην ευθεία παλινδρόμησης (δηλαδή το SSE = 0).
  • Όσο περισσότερες μεταβλητές προσθέσουμε στο μοντέλο, το R2 μπορεί μόνο να αυξηθεί, διότι το SSE με την προσθήκη μιας μεταβλητής μόνο να μειωθεί μπορεί (ακόμα και αν η καινούρια μεταβλητή δεν προσδίδει κάτι στην ερμηνεία του μοντέλου παλινδρόμησης και στην ουσία δεν ερμηνεύει κάποιο ποσοστό διακύμανσης στην πραγματικότητα). Αυτό είναι και το μεγάλο μειονέκτημα του συντελεστή προσδιορισμού.

Συντελεστής προσδιορισμού προσαρμοσμένος για τους βαθμούς ελευθερίας (R2(adj))
Για να αντιμετωπιστεί το πρόβλημα οτι το R2 με την προσθήκη οποιασδήποτε μεταβλητής μόνο να αυξηθεί μπορεί (έστω και αν η μεταβλητή δεν έχει καμμία ερμηνευτική αξία σε ένα πρόβλημα) ορίζεται ο συντελεστής προσδιορισμού προσαρμοσμένος για τους βαθμούς ελευθερίας (R^{2}_{adj}).
R^{2}_(adj)= 1- \frac{\frac{SSE}{n-k}}{\frac{SST}{n-1}}= 1- (\frac{n-1}{n-k}) \frac{SSE}{SST}
όπου σε ένα πρόβλημα με n παρατηρήσεις και k παραμέτρους οι βαθμοί ελευθερίας είναι (n-k) για το SSE και (n-1) γισ το SST. Δηλαδή στο (R^{2}_{adj}) διαιρείται κάθε άθροισμα τετραγώνων με τους αντίστοιχους βαθμούς ελευθερίας του.
Το πλεονέκτημα εδώ είναι οτι μπορεί με την προσθήκη μιας νέας μεταβλητής το (R^{2}_{adj}) να μειωθεί και αυξάνεται αν όντως μια μεταβλητή προσφέρει σημαντική μείωση στην διακύμανση της εξαρτημένης μεταβλητής Y.


Συντελεστής πολλαπλής συσχέτισης (coefficient of multiple correlation)
Ο συντελεστής πολλαπλής συσχέτισης είναι η θετική τετραγωνική ρίζα του συντελεστή προσδιορισμού. Δηλαδή:
R=\sqrt{R^{2}}. Όταν έχουμε μια μεταβλητή, συμπίπτει με τον συντελεστή συσχέτισης στην απλή παλινδρόμηση.

Παράδειγμα 1
Θεωρούμε τις μεταβλητές (X1) και (X2) και την εξαρτημένη μεταβλητή (Y) και το μοντέλο γραμμικής παλινδρόμησης το οποίο συνδέει την εξαρτημένη μεταβλητή με τις ανεξάρτητες μεταβλητές.
>   y=c(10,15,20,25,30,35,40,45,50)
>   x1=c(2,5,9,12,14,17,21,25,26)
>   x2=c(107,102,91,82,68,54,52,50,45)
> problem=(lm(y~x1+x2))
> problem
Call:
lm(formula = y ~ x1 + x2)
Coefficients:
(Intercept)           x1           x2  
   17.72956      1.33872     -0.09975  
Ακολουθεί ο πίνακας της ανάλυσης διακύμανσης του μοντέλου.
> anova(problem)
Analysis of Variance Table
Response: y
          Df  Sum Sq Mean Sq   F value    Pr(>F)    
x1         1 1490.06 1490.06 1221.7152 3.654e-08 ***
x2         1    2.62    2.62    2.1507    0.1929    
Residuals  6    7.32    1.22        
Ο εκτιμητής της διακύμανσης είναι: s^{2}=MSE=\frac{SSE}{n-k-1}=\frac{7.32}{9-2-1}=1.22
Για τον πολυδιάστατο συντελεστή συσχέτισης ισχύει: R=\sqrt{R^{2}}= \sqrt{1-\frac{SSE}{SST}}= \sqrt{1- \frac{7.32}{1500}}=0.997557
φαίνεται μια πολύ μεγάλη συσχέτιση μεταξύ των ανεξάρτητων μεταβλητών και της εξαρτημένης μεταβλητής.

Παράδειγμα 2
Το κόστος της διαφήμισης ανά σελίδα σε 48 περιοδικλα ευρείας κυκλοφορίας έχει διαπιστωθεί ότι εξαρτάται από τον αριθμό αντιτύπων που πωλείται έκαστο, από το φύλο του αναγνωστικού κοινού και το εισόδημα των αναγνωστών. Έτσι είχαμε τα ακόλουθα δεδομένα:

α/α ΚΟΣΤΟΣ ΑΝΑ ΣΕΛΙΔΑ X1(πωλήσεις αντιτύπων) X2(ποσοστά ανδρών) X3(ετήσιο εισόδημα)
1            73.820             8.000                   22            23.241
2            35.140             845                     72            30.884  
3            23.795             725                     88            25.982 
4            28.980             2.250                   17            22.785
5            21.886             1.250                   42            16.505
6            62.7750            7.450                   13            21.785 
7            33.760             2.000                   79            24.337
8            25.090             700                     74            36.783
9            30.040             670                     71            35.204  
10           24.340             1.800                   6             21.828  
11           26.625             1.025                   82            32.949
12           58.020             5.000                   13            21.828
13           16.200             650                     8             25.358 
14           20.400             850                     78            23.056 
15           25.430             1.000                   19            23.726  
16           19.775             800                     16            24.198
17           48.000             5.000                   12            21.583
18           16.280             1.000                   9             23.660
19           59.830             6.200                   12            20.690   
20           24.815             1.600                   81            22.568 
21           25.740             1.000                   58            31.587
22           21.905             750                     84            23.878  
23           7.845              450                     16            24.107
24           26.500             4.637                   40            19.969 
25           95.575             8.400                   55            26.294 
26           9.900              580                     72            22.888
27           63.850             2.950                   62            26.719
28           28.475             1.500                   82            23.596
29           36.960             1.650                   22            20.779
30           56.425             2.350                   40            23.971 
31           55.710             5.000                   78            24.051
32           7.220              650                     36            19.329 
33           26.932             1.600                   81            25.474
34           26.820             1.800                   80            26.542 
35           97.700             17.900                  44            21.802 
36           42.675             3.800                   11            22.794 
37           18.775             630                     89            28.093 
38           17.770             700                     66            24.074 
39           24.000             720                     68            29.531
40           19.250             1.500                   9             21.251
41           54.165             2.250                   80            26.275 
42           21.350             3.400                   35            19.156  
43           85.870             4.400                   56            26.908 
44           13.435             1.400                   18            14.325 
45           77.400             17.345                  45            20.461
46           42.510             2.050                   63            26.998  
47           18.000             950                     11            23.452  
48           60.435             7.125                   8             21.910 
Μέσος        36.629             3.048                 46.3    24.277            
Τυπική       22.973             3.756                   29.1           4.271 
απόκλιση

Να υπολογιστούν οι ποσότητες R2 και R_{k}^{2} για k=3.
Λύση
Εδώ ο υπολογισμός του R2 γίνεται εφ'όσον πρώτα υπολογίσουμε το:
SSE=\sum_{i=1}^{n}(Y_{i}-\hat{Y}_{i})^2
και το: SS=\sum_{i=1}^{n}(Y_{i}-\bar{Y}_{i})^2.
Για το σκοπό αυτό απαραίτητος είναι ο υπολογισμός των σφαλμάτων πρόβλεψης (ή καταλοίπων) Y_{i}-\hat{Y}_{i} για i=1,...,48.
Αυτά παρουσιάζονται παρακάτω:

α/α -----------------Y---------------\hat{Y}(προβλεπόμενο)-----------------Y-\hat{Y}(κατάλοιπα)
1            73.820            61.783                      12.037
2            35.140            62.783                      12.037         
3            23.795            25.985                       2.351
4            28.980            30.912                      -2.190
5            21.886            30.912                      -1.932
6            62.7750           17.677                       4.209
7            33.760            57.197                       5.553
8            25.090            30.807                       2.953
9            30.040            39.213                     -14.123 
10           24.340            37.157                      -7.117  
11           26.625            27.486                      -3.146
12           58.020            36.154                      -9.524
13           16.200            44.496                      13.524 
14           20.400            25.706                      -9.506 
15           25.430            23.178                      -2.778  
16           19.775            25.438                          -8
17           48.000            24.992                      -5.217
18           16.280            44.021                       3.979
19           59.830            25.468                      -9.188  
20           24.815            49.267                      10.563 
21           25.740            26.510                      -1.695
22           21.905            34.621                       -8881  
23           7.845             23.589                      -1.684
24           26.500            23.032                     -15.187
25           95.575            39.823                     -13.323 
26           9.900             67.265                      28.310
27           63.850            21.613                     -11.713
28           28.475            38.924                      24.926
29           36.960            27.227                       1.248
30           56.425            25.235                      11.725
31           55.710            32.637                      23.788
32           7.220             46.313                       9.397 
33           26.932            18.027                     -10.807
34           26.820            30.063                      -3.131
35           97.700            32.436                      23.788 
36           42.675           112.068                     -14.368
37           18.775            39.175                       3.500 
38           17.770            28.054                      -9.279
39           24.000            23.763                      -5.993
40           19.250            30.518                      -6.518
41           54.165            25.163                      -5.913
42           21.350            32.351                     -11.001
43           85.870            46.879                      38.991
44           13.435            16.068                      -2.633   
45           77.400           107.486                     -30.086 
46           42.510            34.501                       8.009 
47           18.000            24.927                      -6.927 
48           60.435            55.688                       4.747


Σαν αποτέλεσμα παίρνουμε πως R2=0.69 που σημαίνει πως οι ανεξάρτητες μεταβλητές ερμηνεύουν κατά 69.4% τις διακυμάνσεις στη μεταβλητή Υ. Επίσης R_{k}^{2}=0.673.

Δεν υπάρχουν σχόλια:

Δημοσίευση σχολίου