Από Quantitative
Γράψαμε το συμβολισμό μέσα στην παρένθεση για να υπενθυμίσουμε στον αναγνώστη οτι έχουμε τη διακύμανση των τιμών της Y σε σχέση με τις k ανεξάρτητες μεταβλητές.
Προσεγγιστικά : S=, αποτελεί ένα μέτρο κατά πόσο τα δεδομένα μας είναι προσαρμοσμένα γύρω από την ευθεία παλινδρόμησης. Για να μετρήσουμε πόσο καλά προσαρμόζονται γύρω από το υπερεπίπεδο παλινδρόμησης χρησιμοποιούμε τον πολυδιάστατο συντελεστή παλινδρόμησης που το συμβολίζουμε με R2.
SSR =
SSE =
SS =
Ένας άλλος συμβολισμός για το R2 είναι το , που υποδηλώνει τη συσχέτιση του Y με όλες τις k μεταβλητές μας.
Ο προσαρμοσμένος συντελεστής πολλαπλού προσδιορισμού , ,είναι ο συντελεστής προσδιορισμού με τα SSE και SST να διαιρούνται από τους αντίστοιχους βαθμούς ελευθερίας :
Ισχύει ότι .
Συντελεστής προσδιορισμού προσαρμοσμένος για τους βαθμούς ελευθερίας (R2(adj))
Συντελεστής πολλαπλής συσχέτισης (coefficient of multiple correlation)
Παράδειγμα 1
Παράδειγμα 2
α/α ΚΟΣΤΟΣ ΑΝΑ ΣΕΛΙΔΑ X1(πωλήσεις αντιτύπων) X2(ποσοστά ανδρών) X3(ετήσιο εισόδημα)
Να υπολογιστούν οι ποσότητες R2 και για k=3.
α/α -----------------Y---------------(προβλεπόμενο)-----------------(κατάλοιπα)
Σαν αποτέλεσμα παίρνουμε πως R2=0.69 που σημαίνει πως οι ανεξάρτητες μεταβλητές ερμηνεύουν κατά 69.4% τις διακυμάνσεις στη μεταβλητή Υ. Επίσης =0.673.
Γενικά
Έχουμε συναντήσει οτι με τη βοήθεια της Μεθόδου των Ελαχίστων Τετραγώνων το πολυδιάστατο γραμμικό μοντέλο εκτιμάται από την:
= ,
όπου τα επιλέγονται έτσι ώστε να ελαχιστοποιούν την:
SSE =
Η τελευταία ποσότητα, όπως και στην απλή παλινδρόμηση, χρησιμοποιείται για να εκτιμήσουμε τη διακύμανση s2. Έτσι ένας εκτιμητής για το s2 της Πολυδιάστατης Γραμμικής Παλινδρόμησης με k ανεξάρτητες μεταβλητές ορίζεται από τη σχέση:
S2 = = =
Γράψαμε το συμβολισμό μέσα στην παρένθεση για να υπενθυμίσουμε στον αναγνώστη οτι έχουμε τη διακύμανση των τιμών της Y σε σχέση με τις k ανεξάρτητες μεταβλητές.
Η μέση μεταβλητότητα είναι αμερόληπτος εκτιμητής της διακύμανσης,S2, των σφαλμάτων του πληθυσμού , e , και συμβολίζεται : MSE==
Προσεγγιστικά : S=, αποτελεί ένα μέτρο κατά πόσο τα δεδομένα μας είναι προσαρμοσμένα γύρω από την ευθεία παλινδρόμησης. Για να μετρήσουμε πόσο καλά προσαρμόζονται γύρω από το υπερεπίπεδο παλινδρόμησης χρησιμοποιούμε τον πολυδιάστατο συντελεστή παλινδρόμησης που το συμβολίζουμε με R2.
R2 = ,
0R21
- SS: ολική απόκλιση
- SSR: ερμηνεύσιμη απόκλιση
- SSE: μη ερμηνεύσιμη απόκλιση
όπου,
SSR =
SSE =
SS =
Ένας άλλος συμβολισμός για το R2 είναι το , που υποδηλώνει τη συσχέτιση του Y με όλες τις k μεταβλητές μας.
Γενικά ο R2 πρέπει να χρησιμοποιείται όταν το δείγμα μας είναι αρκετά μεγάλο σε σχέση με τον αριθμό των παραμέτρων μας. Αν δεν συμβαίνει το τελευταίο, χρησιμοποιούμε τον πολυδιάστατο συντελεστή διόρθωσης που τον συμβολίζουμε με και ορίζεται από την:
= 1-) = 1-(n-1) = 1-
Σε αντίθεση με τον αυξάνει ή φθίνει όταν προστίθενται και νέες μεταβλητές στο μοντέλο μας. Έτσι αν μια νέα μεταβλητή μας ελαττώνει τη διακύμανση S2, έχουμε σαν συνέπεια την αύξηση του . Αντίθετα, αν έχουμε αύξηση της διακύμανσης, τότε έχουμε την ελάττωση του .
Ο προσαρμοσμένος συντελεστής πολλαπλού προσδιορισμού , ,είναι ο συντελεστής προσδιορισμού με τα SSE και SST να διαιρούνται από τους αντίστοιχους βαθμούς ελευθερίας :
Συντελεστής Πολλαπλού Προδιορισμού (Coefficient of Multiple Determination)
Ορίζεται ανάλογα με την απλή παλινδρόμηση. Δηλαδή:
όπου (άθροισμα τετραγώνων παλινδρόμησης)
(άθροισμα τετραγώνων καταλοίπων)
(συνολικό τετραγωνικό σφάλμα)
Ισχύει ότι .
Παρατηρήσεις
- Η ερμηνεία είναι οτι το R2 δείχνει το ποσοστό της διακύμανσης του Y το οποίο ερμηνεύεται απο την εξίσωση παλινδρόμησης (δηλαδή απο τις μεταβλητές Xi).
- Το R2 = 0 όταν όλες οι παράμετροι της παλινδρόμησης βi , i=1,...,k είναι μηδέν. Το R2 = 1 όταν όλες οι παρατηρήσεις βρίσκονται πάνω στην ευθεία παλινδρόμησης (δηλαδή το SSE = 0).
- Όσο περισσότερες μεταβλητές προσθέσουμε στο μοντέλο, το R2 μπορεί μόνο να αυξηθεί, διότι το SSE με την προσθήκη μιας μεταβλητής μόνο να μειωθεί μπορεί (ακόμα και αν η καινούρια μεταβλητή δεν προσδίδει κάτι στην ερμηνεία του μοντέλου παλινδρόμησης και στην ουσία δεν ερμηνεύει κάποιο ποσοστό διακύμανσης στην πραγματικότητα). Αυτό είναι και το μεγάλο μειονέκτημα του συντελεστή προσδιορισμού.
Συντελεστής προσδιορισμού προσαρμοσμένος για τους βαθμούς ελευθερίας (R2(adj))
Για να αντιμετωπιστεί το πρόβλημα οτι το R2 με την προσθήκη οποιασδήποτε μεταβλητής μόνο να αυξηθεί μπορεί (έστω και αν η μεταβλητή δεν έχει καμμία ερμηνευτική αξία σε ένα πρόβλημα) ορίζεται ο συντελεστής προσδιορισμού προσαρμοσμένος για τους βαθμούς ελευθερίας .
όπου σε ένα πρόβλημα με n παρατηρήσεις και k παραμέτρους οι βαθμοί ελευθερίας είναι (n-k) για το SSE και (n-1) γισ το SST. Δηλαδή στο διαιρείται κάθε άθροισμα τετραγώνων με τους αντίστοιχους βαθμούς ελευθερίας του.
Το πλεονέκτημα εδώ είναι οτι μπορεί με την προσθήκη μιας νέας μεταβλητής το να μειωθεί και αυξάνεται αν όντως μια μεταβλητή προσφέρει σημαντική μείωση στην διακύμανση της εξαρτημένης μεταβλητής Y.
Συντελεστής πολλαπλής συσχέτισης (coefficient of multiple correlation)
Ο συντελεστής πολλαπλής συσχέτισης είναι η θετική τετραγωνική ρίζα του συντελεστή προσδιορισμού. Δηλαδή:
. Όταν έχουμε μια μεταβλητή, συμπίπτει με τον συντελεστή συσχέτισης στην απλή παλινδρόμηση.
Παράδειγμα 1
Θεωρούμε τις μεταβλητές (X1) και (X2) και την εξαρτημένη μεταβλητή (Y) και το μοντέλο γραμμικής παλινδρόμησης το οποίο συνδέει την εξαρτημένη μεταβλητή με τις ανεξάρτητες μεταβλητές.
> y=c(10,15,20,25,30,35,40,45,50) > x1=c(2,5,9,12,14,17,21,25,26) > x2=c(107,102,91,82,68,54,52,50,45)
> problem=(lm(y~x1+x2)) > problem
Call: lm(formula = y ~ x1 + x2)
Coefficients: (Intercept) x1 x2 17.72956 1.33872 -0.09975
Ακολουθεί ο πίνακας της ανάλυσης διακύμανσης του μοντέλου.
> anova(problem) Analysis of Variance Table
Response: y Df Sum Sq Mean Sq F value Pr(>F) x1 1 1490.06 1490.06 1221.7152 3.654e-08 *** x2 1 2.62 2.62 2.1507 0.1929 Residuals 6 7.32 1.22
Ο εκτιμητής της διακύμανσης είναι:
Για τον πολυδιάστατο συντελεστή συσχέτισης ισχύει:
φαίνεται μια πολύ μεγάλη συσχέτιση μεταξύ των ανεξάρτητων μεταβλητών και της εξαρτημένης μεταβλητής.
Παράδειγμα 2
Το κόστος της διαφήμισης ανά σελίδα σε 48 περιοδικλα ευρείας κυκλοφορίας έχει διαπιστωθεί ότι εξαρτάται από τον αριθμό αντιτύπων που πωλείται έκαστο, από το φύλο του αναγνωστικού κοινού και το εισόδημα των αναγνωστών. Έτσι είχαμε τα ακόλουθα δεδομένα:
α/α ΚΟΣΤΟΣ ΑΝΑ ΣΕΛΙΔΑ X1(πωλήσεις αντιτύπων) X2(ποσοστά ανδρών) X3(ετήσιο εισόδημα)
1 73.820 8.000 22 23.241 2 35.140 845 72 30.884 3 23.795 725 88 25.982 4 28.980 2.250 17 22.785 5 21.886 1.250 42 16.505 6 62.7750 7.450 13 21.785 7 33.760 2.000 79 24.337 8 25.090 700 74 36.783 9 30.040 670 71 35.204 10 24.340 1.800 6 21.828 11 26.625 1.025 82 32.949 12 58.020 5.000 13 21.828 13 16.200 650 8 25.358 14 20.400 850 78 23.056 15 25.430 1.000 19 23.726 16 19.775 800 16 24.198 17 48.000 5.000 12 21.583 18 16.280 1.000 9 23.660 19 59.830 6.200 12 20.690 20 24.815 1.600 81 22.568 21 25.740 1.000 58 31.587 22 21.905 750 84 23.878 23 7.845 450 16 24.107 24 26.500 4.637 40 19.969 25 95.575 8.400 55 26.294 26 9.900 580 72 22.888 27 63.850 2.950 62 26.719 28 28.475 1.500 82 23.596 29 36.960 1.650 22 20.779 30 56.425 2.350 40 23.971 31 55.710 5.000 78 24.051 32 7.220 650 36 19.329 33 26.932 1.600 81 25.474 34 26.820 1.800 80 26.542 35 97.700 17.900 44 21.802 36 42.675 3.800 11 22.794 37 18.775 630 89 28.093 38 17.770 700 66 24.074 39 24.000 720 68 29.531 40 19.250 1.500 9 21.251 41 54.165 2.250 80 26.275 42 21.350 3.400 35 19.156 43 85.870 4.400 56 26.908 44 13.435 1.400 18 14.325 45 77.400 17.345 45 20.461 46 42.510 2.050 63 26.998 47 18.000 950 11 23.452 48 60.435 7.125 8 21.910
Μέσος 36.629 3.048 46.3 24.277 Τυπική 22.973 3.756 29.1 4.271 απόκλιση
Να υπολογιστούν οι ποσότητες R2 και για k=3.
Λύση
Εδώ ο υπολογισμός του R2 γίνεται εφ'όσον πρώτα υπολογίσουμε το:
SSE=
και το: SS=.
Για το σκοπό αυτό απαραίτητος είναι ο υπολογισμός των σφαλμάτων πρόβλεψης (ή καταλοίπων) για i=1,...,48.
Αυτά παρουσιάζονται παρακάτω:
α/α -----------------Y---------------(προβλεπόμενο)-----------------(κατάλοιπα)
1 73.820 61.783 12.037 2 35.140 62.783 12.037 3 23.795 25.985 2.351 4 28.980 30.912 -2.190 5 21.886 30.912 -1.932 6 62.7750 17.677 4.209 7 33.760 57.197 5.553 8 25.090 30.807 2.953 9 30.040 39.213 -14.123 10 24.340 37.157 -7.117 11 26.625 27.486 -3.146 12 58.020 36.154 -9.524 13 16.200 44.496 13.524 14 20.400 25.706 -9.506 15 25.430 23.178 -2.778 16 19.775 25.438 -8 17 48.000 24.992 -5.217 18 16.280 44.021 3.979 19 59.830 25.468 -9.188 20 24.815 49.267 10.563 21 25.740 26.510 -1.695 22 21.905 34.621 -8881 23 7.845 23.589 -1.684 24 26.500 23.032 -15.187 25 95.575 39.823 -13.323 26 9.900 67.265 28.310 27 63.850 21.613 -11.713 28 28.475 38.924 24.926 29 36.960 27.227 1.248 30 56.425 25.235 11.725 31 55.710 32.637 23.788 32 7.220 46.313 9.397 33 26.932 18.027 -10.807 34 26.820 30.063 -3.131 35 97.700 32.436 23.788 36 42.675 112.068 -14.368 37 18.775 39.175 3.500 38 17.770 28.054 -9.279 39 24.000 23.763 -5.993 40 19.250 30.518 -6.518 41 54.165 25.163 -5.913 42 21.350 32.351 -11.001 43 85.870 46.879 38.991 44 13.435 16.068 -2.633 45 77.400 107.486 -30.086 46 42.510 34.501 8.009 47 18.000 24.927 -6.927 48 60.435 55.688 4.747
Σαν αποτέλεσμα παίρνουμε πως R2=0.69 που σημαίνει πως οι ανεξάρτητες μεταβλητές ερμηνεύουν κατά 69.4% τις διακυμάνσεις στη μεταβλητή Υ. Επίσης =0.673.
Δεν υπάρχουν σχόλια:
Δημοσίευση σχολίου