Παρασκευή 27 Νοεμβρίου 2015

F-έλεγχος

Από Quantitative


Με τον έλεγχο που αναπτύσουμε στην παράγραφο Ανάλυση της Διακύμανσης και Έλεγχοι Υποθέσεων μπορούμε να ελέγξουμε αν όλες οι μεταβλητές μας είναι στατιστικά σημαντικές ή οχι. Μπορεί όμως σε πολλές περιπτώσεις ορισμένες μεταβλητές να είναι σημαντικές ενώ οι υπόλοιπες όχι. Έτσι οδηγούμαστε στη σύγκριση δύο μοντέλων.

Το πρώτο μοντέλο, όπου όλες οι μεταβλητές μας υπεισέρχονται, ονομάζεται πλήρες μοντέλο, ενώ το δεύτερο, που περιέχει μόνο μερικές μεταβλητές, ονομάζεται αναγωγικό. Το δεύτερο είναι της ίδιας μορφής όπως το πρώτο, εκτός του οτι δεν περιέχει τις μεταβλητές που δεν είναι σημαντικές. Σχηματικά τα παραπάνω διατυπώνονται ως εξής:

Πλήρες Μοντέλο Y = a + b1x1 + ... + bmxm + bm + 1 + xm + 1 + ... + bkxk + v

Αναγωγικό Μοντέλο Υ = a + b1x1 + ... + bmxm + v: < math > bm + 1 = ... = bk = 0 έναντι της εναλλακτικής Α: τουλάχιστον μία από τις παραμέτρους b είναι διαφορετική του 0; Χρησιμοποιούμε την εξής στατιστική ελέγχου:

F = \frac{(SSE_A-SSE_P)/(k-m)}{SSE_P/[n-(k+1)]} = \frac{(SSE_A-SSE_P)/ w}{MSE_P}
όπου, SSEA = Άθροισμα τετραγώνων σφαλμάτων για το αναγωγικό μοντέλο
MSEP = Μέσο τετραγωνικό σφάλμα για το πλήρες μοντέλο
k-m = Πλήθος των προς έλεγχο b παραμέτρων
k+1 = Σύνολο παραμέτρων του μοντέλου μας
w = πλήθος των προς έλεγχο παραμέτρων
Καταλήγουμε σε απόρριψη της Η όταν
F\geqf_{n_1,n_2;a}, με n1 = k-m και n2 = n-1(k+1)

Έλεγχος F

Γενικά
Με τον έλεγχο F ή αλλιώς F-test χρησιμοποιείται για να εξετάσουμε το μοντέλο παλινδρόμησης. Ελέγχει κατά πόσο το προτεινόμενο μοντέλο y=a+bx διαφέρει από το σταθερό y=a.
Υπολογίζουμε το στατιστικό ελέγχου:
F=\frac{\sum_{i=1}^{n}{(\hat{y_{i}}-\bar{y})}^2}{\frac{1}{n-2}\sum_{i=1}^{n}{(y_{i}-\hat{y_{i}})}^2}
το οποίο κάτω από τη μηδενική υπόθεση H0:b=0 με εναλλακτική H1:b\neq0 ακολουθεί την F(1,n-2). Υπολογίζουμε λοιπόν την τιμή του στατιστικού ελέγχου F και η Ρ-τιμή είναι η πιθανότητα της περιοχής της F(1,n-2) δεξιά από το F που παρατηρούμε. Ο στατιστικός έλεγχος για την ύπαρξη γραμμικής συσχέτισης ανάμεσα στο Y και σε κάθε μία από τις ανεξάρτητες, k στο πλήθος, μεταβλητές, X1, Χ2, ..., Xk:H0: β1= β2 = ...= βk= 0 και H1: τουλάχιστον ένα βi(i=1,2,...,k) διάφορο του 0. Ο έλεγχος γίνεται με την βοήθεια της \frac{MSR}{MSE}=F>F1 − α,k − 1,n − k
Συμπερασματικά
Ο πιο συνηθισμένος έλεγχος ο οποίος πραγματοποιείται στην πολλαπλή (και στην απλή) παλινδρόμηση, είναι ο έλεγχος της υπόθεσης:
H01 = β2 = ... = βk = 0 έναντι της
H1: τουλάχιστον ένα \beta_{i}\neq 0, i=1,...,k
όπου έχουμε ένα μοντέλο γραμμικής παλινδρόμησης με k μεταβλητές ανεξάρτητες.
Ο έλεγχος γίνεται με την βοήθεια της κατανομής F και η ελεγχοσυνάρτηση είναι F_{0}=\frac{MSR}{MSE} .
Η μηδενική υπόθεση απορρίπτεται στο α επίπεδο σημαντικότητας άν F0 > F1 − α,k − 1,n − k.
Η απόρριψη της H0 σημαίνει οτι κάποια ή κάποιες απο τις ανεξάρτητες μεταβλητές έχουν τον αντίστοιχο συντελεστή τους στατιστικά σημαντικά διάφορο του μηδενός και όντως το μοντέλο παλινδρόμησης βοηθάει στην επεξήγηση της διακύμανσης της εξαρτημένης μεταβλητής Y.

Γενικά, αν υπάρχουν g γραμμικοί περιορισμοί, ο έλεγχος της υπόθεσης ότι οι συντελεστές του υποδείγματος ικανοποιούν τους g γραμμικούς περιορισμούς, για g< K + 1, μπορεί να γίνει με την στατιστική
F = [(\Sigma \widehat {u_r^2} - \Sigma \widehat {u_u^2})/g] / [\Sigma \widehat {u_u^2}/ (T - K - 1)] = [(SSE_r - SSE_u)/g] / [SSE_u / (T - K - 1)]
η οποία ακολουθεί την κατανομή F με g και Τ -Κ - 1 βαθμούς ελευθερίας. Όλοι οι έλεγχοι μπορούν να θεωρηθούν ειδικές περιπτώσεις του προηγούμενου ελέγχου με g περιορισμούς.

ΚΑΤΙ ΑΚΟΜΑ ΓΙΑ ΤΗΝ ΣΤΑΤΙΣΤΙΚΗ F
Η στατιστική F είναι πάντοτε θετική αφού το SSR του μοντέλου υπό περιορισμούς
δεν μπορεί να είναι μικρότερο από to SSR του μοντέλου χωρίς περιορισμούς.
Ουσιαστικά η Fμετράει τη σχετική αύξηση του SSR όταν μεταβιβαζόμαστε στο ένα
μοντέλο χωρίς περιορισμούς σε ένα μοντέλο υπό περιορισμούς.
q=αριθμός περιορισμών ή dfr-dfur
n-k-1=dfur
Επειδή ωστόσο το SSR μπορεί να είναι άβολα μια άλλη μορφή του τύπου είναι
F={(Rur^2-Rr^2)/q}/{(1-Rur^2)/(n-k-1)}
χρησιμοποιούμε το SSR=SST(1-R^2) που ισχύει για κάθε παλι παλινδρόμηση
όπου r υπό περιορισμούς και όπου ur χωρίς περιορισμούς.

ΒΙΒΛΙΟΓΡΑΦΙΑ:utopia.duth.gr/~spapado/Econometrics-I/e1_ch04_gr.ppt
--Bma1645 20:15, 20 Οκτωβρίου 2011 (EEST)ΤΣΑΚΙΡΑΚΗ ΑΛΚΥΟΝΗ

Μερικός Έλεγχος F

Στην περίπτωση αυτή, έχουμε μια στατιστική μεθοδολογία η οποία τον έλεγχο ενός αριθμού των όρων του υποδείγματος (συντελεστών ανεξάρτητων μεταβλητών) και όχι το σύνολο των όρων του υποδείγματος παλινδρόμησης.
Αποδεικνύεται εξαιρετικά χρήσιμος ένας έλεγχος τέτοιας μορφής όταν ξέρουμε εκ των προτέρων οτι κάποιες ανεξάρτητες μεταβλητές πρέπει να χρησιμοποιηθούν οπωσδήποτε στο υπόδειγμα αλλά για κάποιες άλλες μεταβλητές δεν είμαστε σίγουροι.

Διατύπωση Ελέγχου
Έστω β1,...,βk οι συντελεστές ανεξάρτητων μεταβλητών του υποδείγματος οι οποίοι θέλουμε να περιληφθούν στο υπόδειγμα και βm επιπρόσθετοι όροι οι οποίοι δεν ξέρουμε αν θα πρέπει να περιληφθούν στο υπόδειγμα. Επομένως η υπόθεση την οποία θέλουμε να ελέγξουμε είναι:
H0k + 1 = βk + 2 = ... = βk + m = 0 έναντι της
H1 οτι 1 τουλάχιστον όρος διαφέρει απο το μηδέν.

Παράδειγμα

Θεωρούμε ένα πλήρες γραμμικό μοντέλο με 5 ανεξάρτητες μεταβλητές:
> x1=c(23,34,26,20,40,37,24,20)
> x2=c(359,239,154,211,197,386,555,125)
> x3=c(5,12,2,7,2,9,16,2)
> x4=c(17,15,14,16,19,16,19,13)
> x5=c(93,94,92,93,97,91,94,99)
> y=c(10,9,5,6,11,6,7,5)
> problem1=lm(y~x1+x2+x3+x4+x5)
> problem1
Call:
lm(formula = y ~ x1 + x2 + x3 + x4 + x5)
Coefficients:
(Intercept)           x1           x2           x3           x4           x5  
 -16.129171     0.077227    -0.004901     0.004588     0.808328     0.102413 
> anova(problem1)
Analysis of Variance Table
Response: y
          Df  Sum Sq Mean Sq F value Pr(>F)
x1         1  9.4378  9.4378  1.2033 0.3871
x2         1  0.6779  0.6779  0.0864 0.7965
x3         1  0.9628  0.9628  0.1228 0.7595
x4         1 10.7382 10.7382  1.3692 0.3625
x5         1  0.3725  0.3725  0.0475 0.8477
Residuals  2 15.6859  7.8429        

> summary(problem1)
Call:
lm(formula = y ~ x1 + x2 + x3 + x4 + x5)
Residuals:
      1       2       3       4       5       6       7       8 
 2.8234  1.8679 -0.8718 -0.8711 -0.2959 -1.1307 -1.0628 -0.4591 
Coefficients:
              Estimate Std. Error t value Pr(>|t|)
(Intercept) -16.129171  43.606129  -0.370    0.747
x1            0.077227   0.154787   0.499    0.667
x2           -0.004901   0.016953  -0.289    0.800
x3            0.004588   0.348612   0.013    0.991
x4            0.808328   0.788268   1.025    0.413
x5            0.102413   0.469930   0.218    0.848
Residual standard error: 2.801 on 2 degrees of freedom
Multiple R-squared: 0.5859,     Adjusted R-squared: -0.4495 
F-statistic: 0.5658 on 5 and 2 DF,  p-value: 0.7373 
Βλέπουμε οτι μόλις το 58.59% της διακύμανσης της εξαρτημένης μεταβλητής επεξηγείται απο το μοντέλο και με βάση τους ελέγχους t δεν διαφέρει ο συντελεστής κάποιας μεταβλητής στατιστικά σημαντικά απο το μηδέν. (Οπότε αν και γνωρίζουμε ουσιαστικά το αποτέλεσμα του ελέγχου F, θα δούμε την διαδικασία).

Έστω οτι έχουμε κάποιο λόγο να πιστεύουμε οτι οι μεταβλητές X2, X3.X5 δε θα έπρεπε να υπάρχουν στο υπόδειγμα.
Το υπόδειγμα τότε θα γίνει :
> problem2=lm(y~x1+x4)
> problem2
Call:
lm(formula = y ~ x1 + x4)
Coefficients:
(Intercept)           x1           x4  
   -4.45982      0.09346      0.57165  

> anova(problem2)
Analysis of Variance Table
Response: y
          Df  Sum Sq Mean Sq F value Pr(>F)
x1         1  9.4378  9.4378  2.4889 0.1755
x4         1  9.4774  9.4774  2.4993 0.1747
Residuals  5 18.9598  3.7920             

> summary(problem2)
Call:
lm(formula = y ~ x1 + x4)
Residuals:
      1       2       3       4       5       6       7       8 
 2.5921  1.7073 -0.9733 -0.5559  0.8600 -2.1447 -1.6447  0.1591 
Coefficients:
            Estimate Std. Error t value Pr(>|t|)
(Intercept) -4.45982    5.57512  -0.800    0.460
x1           0.09346    0.09952   0.939    0.391
x4           0.57165    0.36159   1.581    0.175
Residual standard error: 1.947 on 5 degrees of freedom
Multiple R-squared: 0.4994,     Adjusted R-squared: 0.2992 
F-statistic: 2.494 on 2 and 5 DF,  p-value: 0.1773 
Βάσει του συντελεστή προσδιορισμού R2 βλέπουμε οτι δεν χάνει σε επεξηγηματικότητα της διακύμανσης το μερικό μοντέλο.
Ο έλεγχος F είναι:
F=\frac{(SSE2-SSE1)/(DF2-DF1)}{SSE1/DF1}= \frac{(18.9598- 15.6859)/(5-2)}{15.6859/2}=0.139144
> qf(0.95,3,2)
[1] 19.16429
F < F(0.95,3,2), οπότε δεν απορρίπτεται η μηδενική υπόθεση οτι οι μεταβλητές X2,X3,X5 και μπορούν οι μεταβλητές X2,X3,X5 να απομακρυνθούν απο το μοντέλο.

Παράδειγμα2

Έχοντας τα δεδομένα του αρχικού παραδείγματος Εδώ και τα αποτελέσματα στην συνέχεια του παραδείγματος εδώ

ο στατιστικός έλεγχος F είναι F=\frac{MST}{MSE}
με F κατανεμημένη με κ-1 και n-k βαθμούς ελευθερίας τότε ν1 = 3 − 1=2
και ν2 = 60 − 3=57
και έχοντας βρει
τους Μέσους τετραγώνων
Ο μέσος τετραγώνων των αγωγών (MST) δίνεται από: MST=\frac{SST}{k-1} και έχουμε MST=\frac{57,512.23}{3-1}=28,756.12

Ο μέσος τετραγώνων των σφαλμάτων (MSE) δίνεται από: MSE=\frac{SSE}{n-k}
και έχουμε: MSE=\frac{506,983.50}{60-3}=8,894.45
τότε F=\frac{28,756.12}{8,894.45}=3.23

Πέφτει η F = 3.23 στην περιοχή απόρριψης ή όχι; Πως συγκρίνεται με την κριτική τιμή της F;
να σημειώσουμε ότι απαιτούνται οι εξής υποθέσεις:

1.  Οι ελεγχόμενοι πληθυσμοί είναι κανονικά κατανεμημένοι.
2.  Οι διακυμάνσεις όλων των πληθυσμών είναι ίσες. 

Αφού ο στόχος του υπολογισμού της F-στατιστικής είναι να καθορίσουμε αν η τιμή του SST είναι αρκετά μεγάλο ώστε να απορρίψουμε την μηδενική υπόθεση, εάν SST είναι μεγάλο, τότε και το F θα είναι μεγάλο. Άρα η περιοχή απόρριψης είναι:
F>Fα,k − 1,n − k και η κριτική τιμή της F είναι:
Fα,k − 1,n − k = F0,05,2,57 = 3,15

Αφού F = 3.23 είναι μεγαλύτερη από την Fκριτική = 3.15,

απορρίπτουμε την μηδενική υπόθεση (H0:μ1 = μ2 = μ3) για την εύνοια της εναλλακτικής υπόθεσης (H1: τουλάχιστον δύο μέσοι των πληθυσμών διαφέρουν).
Δηλαδή: υπάρχει αρκετή μαρτυρία να συμπεράνουμε ότι οι μέσοι των εβδομαδιαίων πωλήσεων διαφέρουν μεταξύ των τριών πόλεων.

Με άλλα λόγια: είμαστε αρκετά έμπιστοι ότι η διαφορετική στρατηγική που χρησιμοποιήθηκε για την διαφήμιση των προϊόντων θα προξενήσει διαφορές στις πωλήσεις.

Δεν υπάρχουν σχόλια:

Δημοσίευση σχολίου