Από Quantitative
var() = ,
var() = varCov() + var(),
Cov () = ,
Cov () = -[Cov() + var()].
, ,
, , i=1,...,k
Παράδειγμα
Το κόστος της διαφήμισης ανά σελίδα σε 48 περιοδικλα ευρείας κυκλοφορίας έχει διαπιστωθεί ότι εξαρτάται από τον αριθμό αντιτύπωνπου πωλείται έκαστο, από το φύλο του του αναγνωστικού κοινού και το εισόδημα των αναγνωστών. Έτσι είχαμε τα ακόλουθα δεδομένα:
α/α ΚΟΣΤΟΣ ΑΝΑ ΣΕΛΙΔΑ X1(πωλήσεις αντιτύπων) X2(ποσοστά ανδρών) X3(ετήσιο εισόδημα)
Θεωρούμε οτι τα τυχαία σφάλματα vi του πολυδιάστατου γραμμικού μοντέλου Y = a + b1x1 + b2x2 + ... + bkxk + v ακολουθούν την Κανονική κατανομή Ν(0,1) και χωρίς βλάβη της γενικότητας να περιέχει μόνο τις δύο ανεξάρτητες τ.μ. X1,X2. Τότε μπορούμε εύκολα να συνοψίσουμε και να αποδείξουμε τα ακόλουθα:
1. Οι κατανομές των εκτιμητών των παραμέτρων
Οι εκτιμητές ακολουθούν Κανονικές κατανομές με μέσους a,b1 και b2.
Αν με r12 συμβολίσουμε τον συντελεστή συσχέτισης μεταξύ των ανεξάρτητων τυχαίων μεταβλητών X1 και X2, με
S11 = και S22 = ,
τότε οι διακυμάνσεις δίνονται από τις εξής σχέσεις
var() = ,
var() = ,
var() = varCov() + var(),
Cov () = ,
Cov () = -[var() + Cov()],
Cov () = -[Cov() + var()].
Από τους τύπους των διακυμάνσεων παρατηρούμε οτι όσο μεγαλύτερη είναι η τιμή r12(δηλ. η γραμμική συσχέτιση της μεταβλητής x1 με την x2) τόσο μεγαλύτερες διακυμάνσεις έχουμε. Εδώ καταλαβαίνουμε οτι η γραμμική συσχέτιση μεταξύ δύο ανεξάρτητων μεταβλητών είναι ανεπιθύμητη ιδιότητα. Επίσης μπορεί να δειχθεί οτι:
= /s2
ακολουθεί την x2-κατανομή με n-1-2=n-3 βαθμούς ελευθερίας.
Έτσι με βάση τα τελευταία έχουμε οτι:
, ,
την t-κατανομή με n-3 αριθμούς ελευθερίας.
Στην περίπτωση που είχαμε k ανεξάρτητες μεταβλητές στο μοντέλο μας, τότε η θα ακολουθούσε μια x2-κατανομή με n-(k+1)βαθμούς ελευθερίας, ενώ οι
, , i=1,...,k
θα ακολουθούσαν την t-κατανομή με n-(k+1) βαθμούς ελευθερίας.
2. Διαστήματα εμπιστοσύνης των παραμέτρων
Το διάστημα εμπιστοσύνης με συντελεστή εμπιστοσύνης 1-a για την παράμετρο bi, είναι το
,, i=1,...,k.
3. Έλεγχοι Υποθέσεων των παραμέτρων
Για τον έλεγχο της υπόθεσης Η:bi=0 έναντι της Α:bi0 σε ε.σ. α, αποδεχόμαστε την Α (που σημαίνει οτι η μεταβλητή x1 είναι στατιστικά σημαντική μεταβλητή για την εξαρτημένη μεταβλητή Υ παρουσία των άλλων) όταν
tn − (k + 1);a / 2
4) Ιδιότητες και διακυμάνσεις των εκτιμητών
Στην περίπτωση μιας ανεξάρτητης μεταβητής, οι εκτιμητές που προκύπτουν με τη μέθοδο των ελαχίστων τετραγώνων είναι άριστοι, γραμμικοί, αμερόληπτοι. Αυτό ισχύει και για το πολυμεταβλητό γραμμικό υπόδειγμα με Κ ανεξάρτητες μεταβλητές, οπότε έχουμε την ακόλουθη γενική μορφή του θεωρήματος των Gauss-Markov.
Στο κλασσικό γραμμικό υπόδειγμα, οι εκτιμητές των συντελεστών β0,β1,.....βkπου προκύπτουν από τη μέθοδο των ελαχίστων τετραγωνων, δηλαδή,
είναι άριστοι γραμμικοί, αμερόληπτοι, οι δε διακυμάνσεις και συνδιακυμάνσεις τους δίνονται από τη σχέση:
Η μήτρα είναι διαστάσεων (Κ+1)*(Κ+1) και τα διαγώνια στοιχεία δίνουν τις διακυμάνσεις των εκτιμητών ενώ τα υπόλοιπα τις συνδιακυμάνσεις.
Για την εκτίμηση των διακυμάνσεων - συνδιακυμάνσεων των συντελεστών, πρέπει πρώτα να έχουμε μια εκτιμηση της άγνωστης διακύμανσης σ2 του διαταρακτικού όρου. Ένας αμερόληπτος εκτιμητής της σ2 είναι ο ακόλουθος:
Επομένως, οι αμερόληπτο εκτιμητές των διακυμάνσεων - συνδιακυμάνσεων των συντελεστών είναι:
Αν τώρα οι ερμηνευτικές μεταβλητές εκφράζονται ως αποκλίσεις από τους μέσους, οπότε αντί της μήτρας (X'X) − 1 έχουμε την μήτρα (x'x) − 1 οι παραπάνω σχέσεις δίνουν τις διακυμάνσεις - συνδιακυμάνσεις των , αλλά όχι του σταθερού όρου β0
Παράδειγμα
Το κόστος της διαφήμισης ανά σελίδα σε 48 περιοδικλα ευρείας κυκλοφορίας έχει διαπιστωθεί ότι εξαρτάται από τον αριθμό αντιτύπωνπου πωλείται έκαστο, από το φύλο του του αναγνωστικού κοινού και το εισόδημα των αναγνωστών. Έτσι είχαμε τα ακόλουθα δεδομένα:
α/α ΚΟΣΤΟΣ ΑΝΑ ΣΕΛΙΔΑ X1(πωλήσεις αντιτύπων) X2(ποσοστά ανδρών) X3(ετήσιο εισόδημα)
1 73.820 8.000 22 23.241 2 35.140 845 72 30.884 3 23.795 725 88 25.982 4 28.980 2.250 17 22.785 5 21.886 1.250 42 16.505 6 62.7750 7.450 13 21.785 7 33.760 2.000 79 24.337 8 25.090 700 74 36.783 9 30.040 670 71 35.204 10 24.340 1.800 6 21.828 11 26.625 1.025 82 32.949 12 58.020 5.000 13 21.828 13 16.200 650 8 25.358 14 20.400 850 78 23.056 15 25.430 1.000 19 23.726 16 19.775 800 16 24.198 17 48.000 5.000 12 21.583 18 16.280 1.000 9 23.660 19 59.830 6.200 12 20.690 20 24.815 1.600 81 22.568 21 25.740 1.000 58 31.587 22 21.905 750 84 23.878 23 7.845 450 16 24.107 24 26.500 4.637 40 19.969 25 95.575 8.400 55 26.294 26 9.900 580 72 22.888 27 63.850 2.950 62 26.719 28 28.475 1.500 82 23.596 29 36.960 1.650 22 20.779 30 56.425 2.350 40 23.971 31 55.710 5.000 78 24.051 32 7.220 650 36 19.329 33 26.932 1.600 81 25.474 34 26.820 1.800 80 26.542 35 97.700 17.900 44 21.802 36 42.675 3.800 11 22.794 37 18.775 630 89 28.093 38 17.770 700 66 24.074 39 24.000 720 68 29.531 40 19.250 1.500 9 21.251 41 54.165 2.250 80 26.275 42 21.350 3.400 35 19.156 43 85.870 4.400 56 26.908 44 13.435 1.400 18 14.325 45 77.400 17.345 45 20.461 46 42.510 2.050 63 26.998 47 18.000 950 11 23.452 48 60.435 7.125 8 21.910
Μέσος 36.629 3.048 46.3 24.277 Τυπική 22.973 3.756 29.1 4.271 απόκλιση
Να εξετασθεί κατά πόσο στατιστικά σημαντικοί είναι οι συντελεστές παλινδρόμησης. (α=-8.643, β1=528.15, β2=-11).
Λύση
Έστ πως θέλουμε να ελέγξουμε την Η: β2=0 έναντι της εναλλακτικής Α:β2=-11, σε επίπεδο σημαντικότητας α=0.05. Το =1.96 και t=-0.14. Επομένως αποδεχόμαστε την Η γιατί η τιμή -11 δεν είναι στατιστικά σημαντική. Έτσι μπορούμε να συμπεράνουμε ότι η μεταβλητή "ποσοστό ανδρών αναγνωστών) δε μας προσφέρει ουσιαστικές πληροφορίες για το Υ. Το ίδιο μπορεί να δειχθεί και για την τιμή α=-8.643 όχι όμως και για την β1=530.4 .
Δεν υπάρχουν σχόλια:
Δημοσίευση σχολίου