Παρασκευή 20 Νοεμβρίου 2015

Δειγματοληπτική συσχέτιση

Από Quantitative


Συντελεστής προσδιορισμού


Η ανάλυση παλινδρόμησης μπορεί να χρησιμοποιηθεί ώστε να διαπιστωθεί αν οι τυχαίες μεταβλητές (τ.μ.) Χ και Υ σχετίζονται γραμμικά (δηλαδή αν σχετίζονται μέσω μιας ευθείας). Θεωρητικά ο βαθμός γραμμικότητας των δύο τυχαίων μεταβλητών εκφράζεται μέσω του συντελεστή συσχέτισης ρ των δύο τ.μ. Το ρ εκφράζει τη συσχέτιση μέσα σε όλο τον πληθυσμό και συνεπώς παραμένει μια παράμετρος του πληθυσμού μας. Ένας λογικός εκτιμητής του ρ είναι η δειγματική συσχέτιση r ή συντελεστής συσχέτισης του Pearson. Το r στο τετράγωνο αποτελεί το συντελεστή προσδιορισμού και είναι το ευρύτερα χρησιμοποιούμενο μέτρο για να μετρήσει την γραμμική σχέση μεταξύ Y και X. Τέλος, ο συντελεστής συσχέτισης, r2 , είναι ένα ποσοτικό μέτρο της ισχύς της σχέσης παλινδρόμησης, ένα μέτρο για το πόσο καλά προσαρμόζεται η ευθεία παλινδρόμησης στα δεδομένα.

Δίνεται από τον τύπο:

r^{2}=\frac{SSR}{SST}= 1- \frac{SSE}{SST}
όπου SST=(\sum(Y_{i}-\overline{Y})^{2} (συνολικό άθροισμα τετραγώνων)
SSR=\sum(\widehat{y_{i}}-\overline{y})^{2} (άθροισμα τετραγώνων παλινδρόμησης)
SSE=\sum(y_{i}-\widehat{y_{i}})^{2} (άθροισμα τετραγώνων σφάλματος)
Επειδή 0\leq SSE \leq SST , ισχύει οτι 0 \leq r^{2} \leq 1
(Y-\overline{Y}) = (Y-\widehat{y}) + (\widehat{y}-\overline{Y})
{Συνολική Διακύμανση = Ανερμήνευτη Διακύμανση(σφάλμα) + Ερμηνεύσιμη Διακύμανση(παλινδρόμηση)}
(\sum(Y_{i}-\overline{Y})^{2}=\sum(y_{i}-\widehat{y_{i}})^{2}+\sum(\widehat{y_{i}}-\overline{y})^{2}
{SST = SSE + SSR}

Παρατηρήσεις :

  • Όταν όλες οι παρατηρήσεις βρίσκονται επάνω στην ευθεία παλινδρόμησης, τότε SSE = 0 και r2 = 1. Δηλαδή η ευθεία παλινδρόμησης απεικονίζει επ'ακριβώς την σχέση μεταξύ X και Y.
  • Όταν η ευθεία παλινδρόμησης είναι οριζόντια, δηλαδή παράλληλη στον άξονα των X,τότε η κλίση της β1 είναι μηδέν και ο συντελεστής προσδιορισμού (r2) είναι επίσης μηδέν. Αυτό σημαίνει οτι δεν υπάρχει καθόλου γραμμική σχέση μεταξύ X και Y
  • Ο συντελεστής προσδιορισμού r2 ουσιαστικά δείχνει το ποσοστό της διακύμανσης το οποίο εξηγείται απο την ευθεία παλινδρόμησης. Όσο πιο κοντά βρίσκεται στη μονάδα, τόσο περισσότερο ποσοστό διακύμανσης της εξαρτημένης μεταβλητής εξηγείται απο την παλινδρόμηση, συνεπώς τόσο μεγαλύτερη γραμμική συσχέτιση υπάρχει μεταξύ X και Y.
  • Το μειονέκτημα είναι οτι δεν δείχνει αν υπάρχει θετική ή αρνητική συσχέτιση μεταξύ των μεταβλητών.

Παράδειγμα 1

Θεωρούμε τις μεταβλητές Κατανάλωση (Y) και εισόδημα (X). Θα ελέγξουμε με τον συντελεστή του Pearson την συσχέτισή τους.
> x=c(114,118,126,130,136,140,148,156) > y=c(102,106,108,110,122,124,128,130)
R=\frac{\sum (X_{i}-\overline{X})(Y_{i}-\overline{Y})}{\sqrt{\sum(X_{i}-\overline{X}^{2})} \sqrt{\sum((Y_{i}-\overline{Y})^{2})}}
Στο παράδειγμα είναι R=\sqrt{0.9337}=0.9662815
Βλέπουμε μια ισχυρή γραμμική σχέση μεταξύ των μεταβλητών X και Y.

Παράδειγμα 2

Miles Dollars Miles2 Miles*Dollars
1211 1802 1466521 2182222
1345 2405 1809025 3234725
1422 2005 2022084 2851110
1687 2511 2845969 4236057
1849 2332 3418801 4311868
2026 2305 4104676 4669930
2133 3016 4549689 6433128
2253 3385 5076009 7626405
2400 3090 5760000 7416000
2468 3694 6091024 9116792
2699 3371 7284601 9098329
2806 3998 7873636 11218388
3082 3555 9498724 10956510
3209 4692 10297681 15056628
3466 4244 12013156 14709704
3643 5298 13271449 19300614
3852 4801 14837904 18493452
4033 5147 16265089 20757852
4267 5738 18207288 24484046
4498 6420 20232004 28877160
4533 6059 20548088 27465448
4804 6426 23078416 30870504
5090 6321 25908100 32173890
5233 7026 27384288 36767056
5439 6964 29582720 37877196

79,448 106,605 293,426,946 390,185,014 : SUM

Συντελεστής συσχέτισης (Pearson) :
r=\frac{\sum(SS_{xy})}{\sqrt{\sum(SS_{x})} \sqrt{\sum(SS_{Y})}}=\frac{\sum (X_{i}-\overline{X})(Y_{i}-\overline{Y})}{\sqrt{\sum(X_{i}-\overline{X}^{2})} \sqrt{\sum((Y_{i}-\overline{Y})^{2})}} =0,9824

Συντελεστής προσδιορισμού:

r2=\frac{SSR}{SST}=0,91568     1< r >-1  ==Συντελεστής Συσχέτισης==  Είναι η τετραγωνική ρίζα του συντελεστή προσδιορισμού. Δηλαδή, <math>r=\pm \sqrt{r^{2}}. Ένα σύμβολο + ή - προστίθεται ανάλογα με το αν η κλίση της ευθείας παλινδρόμησης είναι θετική ή αρνητική αντίστοιχα.
Οι τιμές οι οποίες μπορεί να πάρει ο συντελεστής συσχέτισης είναι μετξύ -1 και1. Δηλαδή, -1\leq r \leq 1 .
  • Το r2 δείχνει το ποσοστό της διακύμανσης της εξαρτημένης μεταβλητής το οποίο ερμηνεύεται απο την ευθεία παλινδρόμησης με την X. Το r δεν έχει τόσο ξεκάθαρο ρόλο. Επιπλέον μπορεί να οδηγήσει στο συμπέρασμα οτι 2 μεταβλητές σχετίζονται γραμμικά περισσότερο απο την πραγματικότητα. Δηλαδή όταν r2 = 0.1, δηλαδή η μεταβλητότητα του Y οφείλεται μόλις κατά 10% στην μεταβλητή X,ισχύει οτι r | = 0.32 κάτι το οποίο σημαίνει οτι υποθέτουμε λανθασμένα μεγαλύτερη γραμμική συσχέτιση μεταξύ των μεταβλητών.
  • Το πλεονέκτημα του συντελεστή συσχέτισης είναι οτι δείχνει εμφανώς αν υπάρχει θετική ή αρνητική γραμμική σχέση μεταξύ των μεταβλητών.

Παρατηρήσεις

  • Ένας υψηλός συντελεστής συσχέτισης δεν εγγυάται σίγουρα καλές προβλέψεις. Αυτό γίνεται διότι μπορεί η ευθεία παλινδρόμησης να είναι καλή για το πως σχετίζονται οι μεταβλητές X και Y αλλά στα επίπεδα του X τα οποία έχουν παρατηρηθεί. Για καινούριο επίπεδο X μακριά απο τις παρατηρήσεις δεν είναι σίγουρο οτι η ευθεία παλινδρόμησης επεξηγεί το ίδιο καλά την διακύμανση της εξαρτημένης μεταβλητής.
  • Επίσης δεν εγγυάται ένας υψηλός συντελεστής συσχέτισης οτι το μοντέλο παλινδρόμησης είναι το καλύτερο, διότι υπάρχουν περιπτώσεις όπου άλλα μοντέλα περιγράφουν καλύτερα την σχέση των X και Y μεταβλητών.
  • Αντίστοιχα ένας χαμηλός συντελεστής συσχέτισης, κοντά στο μηδέν σημαίνει οτι οι 2 μεταβλητές δεν είναι γραμμικά συσχετισμένες, όχι οτι είναι ασυσχέτιστες. Υπάρχει περίπτωση μια τετραγωνική ή εκθετική σχέση για παράδειγμα να τις περιγράφει πολύ καλά.

Παράδειγμα 1

Θεωρούμε τις μεταβλητές αποθέματα (Υ) και πωλήσεις (Χ).
> x=c(30.5,30.9,37.3,52.8,63)
> y=c(52.9,53.8,63.4,101.7,108.3)
Θέλουμε να ελέγξουμε τον βαθμό στον οποίο σχετίζονται γραμμικά. Θα υπολογίσουμε για το λόγο αυτόν, τον συντελεστή συσχέτισης r του Pearson.
R=\frac{\sum (X_{i}-\overline{X})(Y_{i}-\overline{Y})}{\sqrt{\sum(X_{i}-\overline{X}^{2})} \sqrt{\sum((Y_{i}-\overline{Y})^{2})}}
Εδώ, r=\sqrt{0.9712}=0.9854947
Βλέπουμε μια σχεδόν απόλυτη γραμμική συσχέτιση, υπάρχει όμως επιφύλαξη για τον βαθμό γραμμικής συσχέτισης τον οποίο απεικονίζει ο συντελεστής λόγω του οτι έχουμε πολύ λίγες παρατηρήσεις.

Παράδειγμα 2

Αν Χ , Υ ανεξάρτητες και ισόνομες τ.μ. να βρεθεί ο συντελεστής συσχέτισης των τ.μ. Ζ=2Χ+Υ , W= 2X-Y.
ΛΥΣΗ
Αφού οι τ.μ. είναι ανεξάρτητες ισχύει ότι:
E(XY) = E(X)E(Y)
V(X ± Y) = V(X) + V(Y)
Επειδή επίσης είναι ισόνομες ισχύει: Ε(Χ) = Ε(Υ) και V(X)= V(Y) = σ2 .
Ο συντελεστής συσχέτισης των Ζ και W δίνεται από τον τύπο:
ρ( Z, W) = Cov(Z,W)\ \sqrt{V(Z) V(W)}
Όπου Cov(U,W) : η συνδιασπορά των Ζ και W
V(U), V(W) : η διασπορά της Ζ και W αντίστοιχα.

ΔΕΙΓΜΑΤΟΛΗΠΤΙΚΗ ΣΥΣΧΕΤΙΣΗ

Είναι γνωστό πως η ανάλυση παλινδρόμησης μπορεί να χρησιμοποιηθεί ώστε να διαπιστωθεί αν οι τυχαίες μεταβλητές Χ, Υ σχετίζονται γραμμικά ή ισοδύναμα μέσω μιας ευθείας. Θεωρητικά ο βαθμός γραμμικότητας των δύο τυχαίων μεταβλητών Χ, Υ εκφράζεται μέσω του συντελεστή συσχέτισης ρ των δύο τυχαίων μεταβλητών Χ, Υ. Το ρ εκφράζει τη συσχέτιση μέσα σε όλο τον πληθυσμό και συνεπώς παραμένει μια παράμετρος του πληθυσμού μας. Ένας λογικός εκτιμητής του ρ είναι η δειγματοληπτική συσχέτιση r ή ο συντελεστής συσχέτισης του Pearson, ο οποίος ορίζεται από τον τύπο :


r=\frac{S_{XY}}{\sqrt{S_{XX}S_{YY}}}=\frac{\sum\limits_{{}}^{{}}{(X_{i}-\overline{X})(Y_{i}-\overline{Y})}}{\sqrt{\sum\limits_{i=1}^{n}{(X_{i}-\overline{X})^{2}\sum\limits_{i=1}^{n}{(Y_{i}-\overline{Y})^{2}}}}}

Όσες ιδιότητες έχουμε περιγράψει για την παράμετρο ρ,παραμένουν οι ίδιες και για τον εκτιμητή r αυτής. Δηλαδή,ισχύει ότι -1\leqρ(Χ,Υ)\leq1. Aν ρ(Χ,Υ)=1 τότε θα λέμε ότι οι Χ,Υ είναι ισχυρά θετικά συσχετισμένες και όσο αυξάνουν(φθίνουν)οι τιμές της μιας θα αυξάνουν (φθίνουν) και οι τιμές της άλλης γραμμικά. Ενώ αν 0 < ρ(Χ,Υ) < η τάση αυτή για γραμμική συσχέτιση θα γίνεται ασθενέστερη.
  • Αν ρ(Χ,Υ)=-1 τότε θα λέμε ότι οι Χ,Υ είναι ισχυρά αρνητικά συσχετισμένες και όσο αυξάνουν(φθίνουν)οι τιμές της μιας θα αυξάνουν (φθίνουν) και οι τιμές της άλλης γραμμικά.
  • Ενώ αν -1 < ρ(Χ,Υ) < 0 η τάση αυτή για γραμμική συσχέτιση θα γίνεται ασθενέστερη.
Αν ρ(Χ,Υ)=0 τότε οι Χ,Υ είναι ασυσχέτιστες και απ' έδω cov(X,Y)=0 ή ΕΧΥ=ΕΧΕΥ. Αν Χ και Υ ανεξάρτητες τ.μ.τότε θα είναι και ασύσχετιστες,το αντίστροφο δεν ισχύει. Έτσι αν r =0 αυτό σημαίνει ότι δεν θα υπάρχει γραμμική σχέση μεταξύ Χ και Υ. Αν r=1 τότε όλα τα σημεία x και y βρίσκονται πάνω σε μία ευθεία με θετική κλίση ,ενώ αν r=-1 όλα τα σημεία θα είναι επί μιας ευθείας με αρνητική κλίση.
Μπορεί να δειχθεί ότι η δειγματική συσχέτιση r συνδέεται μεταξύ των ποσοτήτων SS(Άθροισμα τετραγώνων),SSR(Άθροισμα τετραγώνων παλινδρόμησης) και SSE(Άθροισμα τετραγώνων σφαλμάτων)μέσω της επόμενης χρήσης: r2=ερμηνεύσιμη απόκλιση \ ολική απόκλιση = \frac{SSR}{SS}=\frac{SS-SSE}{SS}=1- \frac{SSE}{SS} = 1 - μη ερμηνεύσιμη απόκλιση \ ολική απόκλιση.
μαθηματική αποτύπωση: r^2=\frac{\sum\limits_{{}}^{{}}{(\hat{Y}_{i}-\overline{Y})^2}}{\sum\limits_{i=1}^{n}{(Y_{i}-\overline{Y})^{2}}}=\frac{\sum\limits_{{}}^{{}}{(Y_{i}-\overline{Y})^2}-\sum\limits_{{}}^{{}}{(Y_{i}-{\hat{Y}_{i})^2}}}{\sum\limits_{i=1}^{n}{(Y_{i}-\overline{Y})^{2}}}=1-\frac{\sum\limits_{i=1}^{n}{(Y_{i}-\hat{Y})^2}}{\sum\limits_{i=1}^{n}{(Y_{i}-\overline{Y})^{2}}}

Στον παραπάνω τρόπο προσδιορισμού το r2 φέρει και την ονομασίασυντελεστής προσδιορισμού. Έτσι αν SSE=0 τότε όλα τα σημεία xi και yi θα ήταν πάνω στην ευθεία \hat{Y}. αντίθετα αν xi και yiσχετίζονται γραμμικά τότε SSE=1 και SSR=0.
Στην περίπτωση που οι τ.μ. Χ και Υ ακολουθούν την κανονική κατανομή μπορούμε να ελέγξουμε την υπόθεση ότι Χ και Υ είναι ασυσχέτιστες(ανεξάρτητες) έναντι της εναλλακτικής οι Χ κ Υ είναι συσχετισμένες (εξαρτημένες) ή ισοδύναμα να ελέγξουμε την υπόθεση Η:ρ=0 έναντι της Α: ρ#0. Εδώ αποφασίζουμε για την Α σε ε.σ.α αν |t| μεγαλύτερο ίσο από tn − 2:α / 2 όπου:
t=\frac{r}{\sqrt\frac{i-r^2}{n-2}}
Αυτός ο έλεγχος είναι ισοδύναμος με τον έλεγχο ότι η ΄κλίση της ευθείας μας είναι β=0 έναντι της εναλλακτικής β#0.

ΠΑΡΑΔΕΙΓΜΑ ΔΕΙΓΜΑΤΟΛΗΠΤΙΚΗΣ ΣΥΣΧΕΤΙΣHΣ

Nα υπολογιστεί ο συντελεστής συσχέτισης μεταξύ εξόδων X και πωλήσεων Y. όταν μας δίνονται τα παρακάτω δεδομένα:

 Μηνάς         έξοδα     πωλήσεις      
               X          Y         Xi^2   XiYi   Yi^2
 1            1.1         101       1.21          10201
   
 2            0.9        90         0.81         8100
 3            0.8        110        0.64         12100
 4            1          75         1.00         5625
 5           1.2         93         1.44         8649
 6           0.8         82         0.64         6724   
 7           0.6         91         0.36         8281
 8           0.7         105        0.49         11025  
 9           1           92         1.00         8464
 10          1.3         120        1.69        14400
 
σύνολο 9.4 959 9.28 93569

r=\frac{S_{XY}}{\sqrt{S_{XX}S_{YY}}}=\frac{\sum\limits_{{}}^{{}}{(X_{i}-\overline{X})(Y_{i}-\overline{Y})}}{\sqrt{\sum\limits_{i=1}^{n}{(X_{i}-\overline{X})^{2}\sum\limits_{i=1}^{n}{(Y_{i}-\overline{Y})^{2}}}}}
SXY = 23,34
SXX = 0.444

SYY = 1600.9
r=\frac{23.34}{\sqrt{0.444(1600,9)}}=0.88
Όσες ιδιότητες έχουμε περιγράψει για την παράμετρο ρ,παραμένουν οι ίδιες και για τον εκτιμητή r αυτής.

ΠΑΡΑΔΕΙΓΜΑ 2

       ΕΤΟΣ------ΠΩΛΗΤΕΣ---ΠΩΛΗΣΕΙΣ--------ΥΧ------------X2 −  −  −  −  −  −  − Y2 
       1985         32      1.050        33.600         1.024       1.102.500
       1986         47      1.260        59.220         2.209       1.587.600
       1987         23      1.470        33.810           529       2.160.900
       1988         68      2.160        146.880        4.624       4.665.600
       1989         32      1.950        62.400         1.024       3.802.500
       1990         17      2.400        40.800           289       5.760.000
       1991         58      2.370        137.460        3.364       5.616.900
       1992         75      3.150        236.250        5.625       9.922.500
       1993         98      3.570        349.860        9.604      12.744.900
       1994         43      4.410        189.630        1.849      19.448.100
       1995         76      4.500        342.000        5.776      20.250.000
       1996         89      5.610        499.290        7.921      31.472.100
       1997         108     5.190        560.520       11.664      26.936.100
       1998         76      5.670        430.920        5.776      32.148.900
       1999         65      5.160        335.400        4.225      26.625.600
       2000         93      6.840        636.120        8.649      46.785.600
ΣΥΝΟΛΑ  16         1000    56.760      4.094.160       74.152     251.029.800

Ο συντελεστής συσχέτισης είναι: r=\frac{n\sum_{XY}-\sum_{X}\sum_{Y}}{\sqrt{[n\sum_{X^2}-(\sum_{X})^2][n\sum_{Y^2}-(\sum_{Y})^2]}}=0.72
Το άθροισμα των τετραγώνων σφαλμάτων είναι: SSE=\sum {Y^2}-b_0\sum Y-b_1\sum {XY}=251.029.800-615,3*56.760-46,92*4.094.160=24.026.844,92
Ο συντελεστής προσδιορισμού είναι:R^2=1-\sum Y^2-b_0\sum Y-b_1\sum{XY}/[\sum Y^2-(\sum Y)^2/n]=0.516 Δηλαδή το 51,6%της μεταβλητότητας των πωλήσεων οφείλεται στον παράγοντα πωλητές.

Συντελεστές R2 και \bar{R}^{2}

Η συσχέτιση των τιμών που προκύπτουν από την εξίσωση της ευθείας παλινδρόμησης και των πραγματικών τιμών συμβολίζεται με R. Στην πράξη η συσχέτιση αυτή χρησιμοποιείται στην τετραγωνική της μορφή και ως εκτούτου είναι ένας συντελεστής πάντα θετικός (0<R2<1). •Αντιπροσωπεύει το ποσοστό της διακύμανσης της μεταβλητής Υ πουερμηνεύεται από την ευθεία της γραμμικής παλινδρόμησης.
O συντελεστής προσδιορισμου (coefficient of determination) R2 ¬μετρά το ποσοστο των μεταβολων της Yi που οφειλονται σε μεταβολες της Xi. Στο επομενο διάγραμμα παρατηρουμε ότι η απόκλιση της Yi από την μέση τιμή Υ ̅ αποτελειται από τα μερη Yi - Y ̂i (ανερμήνευτο μέρος) και Y ̂i - Υ ̅(ερμηνευτικό μέρος). Ισχύει ότι: Y_i - \bar{Y} = (\hat{Y}_i -\bar{Y}) + (Y_i -\hat{Y}_i)
Η συνολικη μεταβλητικοτητα της εξαρτημένης μεταβλητής Yi , οφειλεται στα κατάλοιπα ei και στην ερμηνευτικη μεταβλητή Xi. Το συνολικο άθροισμα τετραγώνων (TSS) ισούται με το ερμηνευμενο άθροισμα τετραγώνων(RSS) συν το άθροισμα τετραγώνων των καταλοίπων (RSS). \sum (Y_i - \bar{Y})^2 = \sum(\hat{Y}_i -\bar{Y})^2 + \sum(Y_i -\hat{Y}_i)^2
 TSS        =       RSS         +       ESS

Ο συντελεστής προσδιορισμου R2 οριζεται ως εξής: R2 = RSS/TSS = 1 - ESS/TSS

Δεν υπάρχουν σχόλια:

Δημοσίευση σχολίου