Από Quantitative
(άθροισμα τετραγώνων παλινδρόμησης)
(άθροισμα τετραγώνων σφάλματος)
=
+
Παρατηρήσεις :
79,448 106,605 293,426,946 390,185,014 : SUM
Συντελεστής συσχέτισης (Pearson) :
=
=0,9824
Συντελεστής προσδιορισμού:
r2=
. Ένα σύμβολο + ή - προστίθεται ανάλογα με το αν η κλίση της ευθείας παλινδρόμησης είναι θετική ή αρνητική αντίστοιχα.
Στον παραπάνω τρόπο προσδιορισμού το r2 φέρει και την ονομασίασυντελεστής προσδιορισμού. Έτσι αν SSE=0 τότε όλα τα σημεία xi και yi θα ήταν πάνω στην ευθεία
. αντίθετα αν xi και yiσχετίζονται γραμμικά τότε SSE=1 και SSR=0.
ΠΑΡΑΔΕΙΓΜΑ ΔΕΙΓΜΑΤΟΛΗΠΤΙΚΗΣ ΣΥΣΧΕΤΙΣHΣ
Nα υπολογιστεί ο συντελεστής συσχέτισης μεταξύ εξόδων X και πωλήσεων Y. όταν μας δίνονται τα παρακάτω δεδομένα:
SYY = 1600.9
ΠΑΡΑΔΕΙΓΜΑ 2
Ο συντελεστής συσχέτισης είναι:
Συντελεστές R2 και
Συντελεστής προσδιορισμού
Η ανάλυση παλινδρόμησης μπορεί να χρησιμοποιηθεί ώστε να διαπιστωθεί αν οι τυχαίες μεταβλητές (τ.μ.) Χ και Υ σχετίζονται γραμμικά (δηλαδή αν σχετίζονται μέσω μιας ευθείας). Θεωρητικά ο βαθμός γραμμικότητας των δύο τυχαίων μεταβλητών εκφράζεται μέσω του συντελεστή συσχέτισης ρ των δύο τ.μ. Το ρ εκφράζει τη συσχέτιση μέσα σε όλο τον πληθυσμό και συνεπώς παραμένει μια παράμετρος του πληθυσμού μας. Ένας λογικός εκτιμητής του ρ είναι η δειγματική συσχέτιση r ή συντελεστής συσχέτισης του Pearson. Το r στο τετράγωνο αποτελεί το συντελεστή προσδιορισμού και είναι το ευρύτερα χρησιμοποιούμενο μέτρο για να μετρήσει την γραμμική σχέση μεταξύ Y και X. Τέλος, ο συντελεστής συσχέτισης, r2 , είναι ένα ποσοτικό μέτρο της ισχύς της σχέσης παλινδρόμησης, ένα μέτρο για το πόσο καλά προσαρμόζεται η ευθεία παλινδρόμησης στα δεδομένα.
Δίνεται από τον τύπο:
όπου
(συνολικό άθροισμα τετραγώνων)
Επειδή
, ισχύει οτι 
(Y-
) = (Y-
) + (
-
)
{Συνολική Διακύμανση = Ανερμήνευτη Διακύμανση(σφάλμα) + Ερμηνεύσιμη Διακύμανση(παλινδρόμηση)}
{SST = SSE + SSR}
Παρατηρήσεις :
- Όταν όλες οι παρατηρήσεις βρίσκονται επάνω στην ευθεία παλινδρόμησης, τότε SSE = 0 και r2 = 1. Δηλαδή η ευθεία παλινδρόμησης απεικονίζει επ'ακριβώς την σχέση μεταξύ X και Y.
- Όταν η ευθεία παλινδρόμησης είναι οριζόντια, δηλαδή παράλληλη στον άξονα των X,τότε η κλίση της β1 είναι μηδέν και ο συντελεστής προσδιορισμού (r2) είναι επίσης μηδέν. Αυτό σημαίνει οτι δεν υπάρχει καθόλου γραμμική σχέση μεταξύ X και Y
- Ο συντελεστής προσδιορισμού r2 ουσιαστικά δείχνει το ποσοστό της διακύμανσης το οποίο εξηγείται απο την ευθεία παλινδρόμησης. Όσο πιο κοντά βρίσκεται στη μονάδα, τόσο περισσότερο ποσοστό διακύμανσης της εξαρτημένης μεταβλητής εξηγείται απο την παλινδρόμηση, συνεπώς τόσο μεγαλύτερη γραμμική συσχέτιση υπάρχει μεταξύ X και Y.
- Το μειονέκτημα είναι οτι δεν δείχνει αν υπάρχει θετική ή αρνητική συσχέτιση μεταξύ των μεταβλητών.
Παράδειγμα 1
Θεωρούμε τις μεταβλητές Κατανάλωση (Y) και εισόδημα (X). Θα ελέγξουμε με τον συντελεστή του Pearson την συσχέτισή τους.
> x=c(114,118,126,130,136,140,148,156) > y=c(102,106,108,110,122,124,128,130)
Στο παράδειγμα είναι 
Βλέπουμε μια ισχυρή γραμμική σχέση μεταξύ των μεταβλητών X και Y.
Παράδειγμα 2
Miles Dollars Miles2 Miles*Dollars
1211 1802 1466521 2182222
1345 2405 1809025 3234725
1422 2005 2022084 2851110
1687 2511 2845969 4236057
1849 2332 3418801 4311868
2026 2305 4104676 4669930
2133 3016 4549689 6433128
2253 3385 5076009 7626405
2400 3090 5760000 7416000
2468 3694 6091024 9116792
2699 3371 7284601 9098329
2806 3998 7873636 11218388
3082 3555 9498724 10956510
3209 4692 10297681 15056628
3466 4244 12013156 14709704
3643 5298 13271449 19300614
3852 4801 14837904 18493452
4033 5147 16265089 20757852
4267 5738 18207288 24484046
4498 6420 20232004 28877160
4533 6059 20548088 27465448
4804 6426 23078416 30870504
5090 6321 25908100 32173890
5233 7026 27384288 36767056
5439 6964 29582720 37877196
79,448 106,605 293,426,946 390,185,014 : SUM
Συντελεστής συσχέτισης (Pearson) :
Συντελεστής προσδιορισμού:
r2=
Οι τιμές οι οποίες μπορεί να πάρει ο συντελεστής συσχέτισης είναι μετξύ -1 και1. Δηλαδή,
.
- Το r2 δείχνει το ποσοστό της διακύμανσης της εξαρτημένης μεταβλητής το οποίο ερμηνεύεται απο την ευθεία παλινδρόμησης με την X. Το r δεν έχει τόσο ξεκάθαρο ρόλο. Επιπλέον μπορεί να οδηγήσει στο συμπέρασμα οτι 2 μεταβλητές σχετίζονται γραμμικά περισσότερο απο την πραγματικότητα. Δηλαδή όταν r2 = 0.1, δηλαδή η μεταβλητότητα του Y οφείλεται μόλις κατά 10% στην μεταβλητή X,ισχύει οτι | r | = 0.32 κάτι το οποίο σημαίνει οτι υποθέτουμε λανθασμένα μεγαλύτερη γραμμική συσχέτιση μεταξύ των μεταβλητών.
- Το πλεονέκτημα του συντελεστή συσχέτισης είναι οτι δείχνει εμφανώς αν υπάρχει θετική ή αρνητική γραμμική σχέση μεταξύ των μεταβλητών.
Παρατηρήσεις
- Ένας υψηλός συντελεστής συσχέτισης δεν εγγυάται σίγουρα καλές προβλέψεις. Αυτό γίνεται διότι μπορεί η ευθεία παλινδρόμησης να είναι καλή για το πως σχετίζονται οι μεταβλητές X και Y αλλά στα επίπεδα του X τα οποία έχουν παρατηρηθεί. Για καινούριο επίπεδο X μακριά απο τις παρατηρήσεις δεν είναι σίγουρο οτι η ευθεία παλινδρόμησης επεξηγεί το ίδιο καλά την διακύμανση της εξαρτημένης μεταβλητής.
- Επίσης δεν εγγυάται ένας υψηλός συντελεστής συσχέτισης οτι το μοντέλο παλινδρόμησης είναι το καλύτερο, διότι υπάρχουν περιπτώσεις όπου άλλα μοντέλα περιγράφουν καλύτερα την σχέση των X και Y μεταβλητών.
- Αντίστοιχα ένας χαμηλός συντελεστής συσχέτισης, κοντά στο μηδέν σημαίνει οτι οι 2 μεταβλητές δεν είναι γραμμικά συσχετισμένες, όχι οτι είναι ασυσχέτιστες. Υπάρχει περίπτωση μια τετραγωνική ή εκθετική σχέση για παράδειγμα να τις περιγράφει πολύ καλά.
Παράδειγμα 1
Θεωρούμε τις μεταβλητές αποθέματα (Υ) και πωλήσεις (Χ).
> x=c(30.5,30.9,37.3,52.8,63) > y=c(52.9,53.8,63.4,101.7,108.3)
Θέλουμε να ελέγξουμε τον βαθμό στον οποίο σχετίζονται γραμμικά. Θα υπολογίσουμε για το λόγο αυτόν, τον συντελεστή συσχέτισης r του Pearson.
Εδώ, 
Βλέπουμε μια σχεδόν απόλυτη γραμμική συσχέτιση, υπάρχει όμως επιφύλαξη για τον βαθμό γραμμικής συσχέτισης τον οποίο απεικονίζει ο συντελεστής λόγω του οτι έχουμε πολύ λίγες παρατηρήσεις.
Παράδειγμα 2
Αν Χ , Υ ανεξάρτητες και ισόνομες τ.μ. να βρεθεί ο συντελεστής συσχέτισης των τ.μ. Ζ=2Χ+Υ , W= 2X-Y.
ΛΥΣΗ
Αφού οι τ.μ. είναι ανεξάρτητες ισχύει ότι:
E(XY) = E(X)E(Y)
V(X ± Y) = V(X) + V(Y)
Επειδή επίσης είναι ισόνομες ισχύει: Ε(Χ) = Ε(Υ) και V(X)= V(Y) = σ2 .
Ο συντελεστής συσχέτισης των Ζ και W δίνεται από τον τύπο:
ρ( Z, W) = Cov(Z,W)\ 
Όπου Cov(U,W) : η συνδιασπορά των Ζ και W
V(U), V(W) : η διασπορά της Ζ και W αντίστοιχα.
ΔΕΙΓΜΑΤΟΛΗΠΤΙΚΗ ΣΥΣΧΕΤΙΣΗ
Είναι γνωστό πως η ανάλυση παλινδρόμησης μπορεί να χρησιμοποιηθεί ώστε να διαπιστωθεί αν οι τυχαίες μεταβλητές Χ, Υ σχετίζονται γραμμικά ή ισοδύναμα μέσω μιας ευθείας. Θεωρητικά ο βαθμός γραμμικότητας των δύο τυχαίων μεταβλητών Χ, Υ εκφράζεται μέσω του συντελεστή συσχέτισης ρ των δύο τυχαίων μεταβλητών Χ, Υ. Το ρ εκφράζει τη συσχέτιση μέσα σε όλο τον πληθυσμό και συνεπώς παραμένει μια παράμετρος του πληθυσμού μας. Ένας λογικός εκτιμητής του ρ είναι η δειγματοληπτική συσχέτιση r ή ο συντελεστής συσχέτισης του Pearson, ο οποίος ορίζεται από τον τύπο :
Όσες ιδιότητες έχουμε περιγράψει για την παράμετρο ρ,παραμένουν οι ίδιες και για τον εκτιμητή r αυτής. Δηλαδή,ισχύει ότι -1
ρ(Χ,Υ)
1. Aν ρ(Χ,Υ)=1 τότε θα λέμε ότι οι Χ,Υ είναι ισχυρά θετικά συσχετισμένες και όσο αυξάνουν(φθίνουν)οι τιμές της μιας θα αυξάνουν (φθίνουν) και οι τιμές της άλλης γραμμικά. Ενώ αν 0 < ρ(Χ,Υ) < η τάση αυτή για γραμμική συσχέτιση θα γίνεται ασθενέστερη.
- Αν ρ(Χ,Υ)=-1 τότε θα λέμε ότι οι Χ,Υ είναι ισχυρά αρνητικά συσχετισμένες και όσο αυξάνουν(φθίνουν)οι τιμές της μιας θα αυξάνουν (φθίνουν) και οι τιμές της άλλης γραμμικά.
- Ενώ αν -1 < ρ(Χ,Υ) < 0 η τάση αυτή για γραμμική συσχέτιση θα γίνεται ασθενέστερη.
Αν ρ(Χ,Υ)=0 τότε οι Χ,Υ είναι ασυσχέτιστες και απ' έδω cov(X,Y)=0 ή ΕΧΥ=ΕΧΕΥ. Αν Χ και Υ ανεξάρτητες τ.μ.τότε θα είναι και ασύσχετιστες,το αντίστροφο δεν ισχύει. Έτσι αν r =0 αυτό σημαίνει ότι δεν θα υπάρχει γραμμική σχέση μεταξύ Χ και Υ. Αν r=1 τότε όλα τα σημεία x και y βρίσκονται πάνω σε μία ευθεία με θετική κλίση ,ενώ αν r=-1 όλα τα σημεία θα είναι επί μιας ευθείας με αρνητική κλίση.
Μπορεί να δειχθεί ότι η δειγματική συσχέτιση r συνδέεται μεταξύ των ποσοτήτων SS(Άθροισμα τετραγώνων),SSR(Άθροισμα τετραγώνων παλινδρόμησης) και SSE(Άθροισμα τετραγώνων σφαλμάτων)μέσω της επόμενης χρήσης: r2=ερμηνεύσιμη απόκλιση \ ολική απόκλιση =
=
=1-
= 1 - μη ερμηνεύσιμη απόκλιση \ ολική απόκλιση.
μαθηματική αποτύπωση:
=
=1-
Στον παραπάνω τρόπο προσδιορισμού το r2 φέρει και την ονομασίασυντελεστής προσδιορισμού. Έτσι αν SSE=0 τότε όλα τα σημεία xi και yi θα ήταν πάνω στην ευθεία
Στην περίπτωση που οι τ.μ. Χ και Υ ακολουθούν την κανονική κατανομή μπορούμε να ελέγξουμε την υπόθεση ότι Χ και Υ είναι ασυσχέτιστες(ανεξάρτητες) έναντι της εναλλακτικής οι Χ κ Υ είναι συσχετισμένες (εξαρτημένες) ή ισοδύναμα να ελέγξουμε την υπόθεση Η:ρ=0 έναντι της Α: ρ#0. Εδώ αποφασίζουμε για την Α σε ε.σ.α αν |t| μεγαλύτερο ίσο από tn − 2:α / 2 όπου:
t=
Αυτός ο έλεγχος είναι ισοδύναμος με τον έλεγχο ότι η ΄κλίση της ευθείας μας είναι β=0 έναντι της εναλλακτικής β#0.
ΠΑΡΑΔΕΙΓΜΑ ΔΕΙΓΜΑΤΟΛΗΠΤΙΚΗΣ ΣΥΣΧΕΤΙΣHΣ
Nα υπολογιστεί ο συντελεστής συσχέτισης μεταξύ εξόδων X και πωλήσεων Y. όταν μας δίνονται τα παρακάτω δεδομένα:
Μηνάς έξοδα πωλήσεις
X Y Xi^2 XiYi Yi^2
1 1.1 101 1.21 10201
2 0.9 90 0.81 8100
3 0.8 110 0.64 12100
4 1 75 1.00 5625
5 1.2 93 1.44 8649
6 0.8 82 0.64 6724
7 0.6 91 0.36 8281
8 0.7 105 0.49 11025
9 1 92 1.00 8464
10 1.3 120 1.69 14400
σύνολο 9.4 959 9.28 93569
SXY = 23,34
SXX = 0.444
SYY = 1600.9
Όσες ιδιότητες έχουμε περιγράψει για την παράμετρο ρ,παραμένουν οι ίδιες και για τον εκτιμητή r αυτής.
ΠΑΡΑΔΕΙΓΜΑ 2
ΕΤΟΣ------ΠΩΛΗΤΕΣ---ΠΩΛΗΣΕΙΣ--------ΥΧ------------X2 − − − − − − − Y2
1985 32 1.050 33.600 1.024 1.102.500
1986 47 1.260 59.220 2.209 1.587.600
1987 23 1.470 33.810 529 2.160.900
1988 68 2.160 146.880 4.624 4.665.600
1989 32 1.950 62.400 1.024 3.802.500
1990 17 2.400 40.800 289 5.760.000
1991 58 2.370 137.460 3.364 5.616.900
1992 75 3.150 236.250 5.625 9.922.500
1993 98 3.570 349.860 9.604 12.744.900
1994 43 4.410 189.630 1.849 19.448.100
1995 76 4.500 342.000 5.776 20.250.000
1996 89 5.610 499.290 7.921 31.472.100
1997 108 5.190 560.520 11.664 26.936.100
1998 76 5.670 430.920 5.776 32.148.900
1999 65 5.160 335.400 4.225 26.625.600
2000 93 6.840 636.120 8.649 46.785.600
ΣΥΝΟΛΑ 16 1000 56.760 4.094.160 74.152 251.029.800
Ο συντελεστής συσχέτισης είναι:
Το άθροισμα των τετραγώνων σφαλμάτων είναι: 
Ο συντελεστής προσδιορισμού είναι:
Δηλαδή το 51,6%της μεταβλητότητας των πωλήσεων οφείλεται στον παράγοντα πωλητές.
Συντελεστές R2 και 
Η συσχέτιση των τιμών που προκύπτουν από την εξίσωση της ευθείας παλινδρόμησης και των πραγματικών τιμών συμβολίζεται με R. Στην πράξη η συσχέτιση αυτή χρησιμοποιείται στην τετραγωνική της μορφή και ως εκτούτου είναι ένας συντελεστής πάντα θετικός (0<R2<1). •Αντιπροσωπεύει το ποσοστό της διακύμανσης της μεταβλητής Υ πουερμηνεύεται από την ευθεία της γραμμικής παλινδρόμησης.
O συντελεστής προσδιορισμου (coefficient of determination) R2 ¬μετρά το ποσοστο των μεταβολων της Yi που οφειλονται σε μεταβολες της Xi. Στο επομενο διάγραμμα παρατηρουμε ότι η απόκλιση της Yi από την μέση τιμή Υ ̅ αποτελειται από τα μερη Yi - Y ̂i (ανερμήνευτο μέρος) και Y ̂i - Υ ̅(ερμηνευτικό μέρος). Ισχύει ότι: 
Η συνολικη μεταβλητικοτητα της εξαρτημένης μεταβλητής Yi , οφειλεται στα κατάλοιπα ei και στην ερμηνευτικη μεταβλητή Xi. Το συνολικο άθροισμα τετραγώνων (TSS) ισούται με το ερμηνευμενο άθροισμα τετραγώνων(RSS) συν το άθροισμα τετραγώνων των καταλοίπων (RSS). 
TSS = RSS + ESS
Ο συντελεστής προσδιορισμου R2 οριζεται ως εξής: R2 = RSS/TSS = 1 - ESS/TSS

Δεν υπάρχουν σχόλια:
Δημοσίευση σχολίου