Από Quantitative
Αν εισαγάγουμε τους εξής συμβολισμούς:
S12 =
S22 =
S2Y =
S2y = + (8)
=
=
Οι κανονικές εξισώσεις με μήτρες
Η επίλυση των εξισώσεων που προκύπτουν, λόγω της πολυπλοκότητας των πράξεων γίνεται συνήθως στον υπολογιστή με υπολογιστικά πακέτα.
Παράδειγμα 1
Η εξίσωση παλινδρόμησης θα είναι:
Δηλαδή,
72 12 5 60 144 25 864 360
Οι μεταβλητές b0,b1,b2 υπολογίζονται με βάση τις εξισώσεις:
Δηλαδή,
Για λόγους απλότητας ας εξετάσουμε πως εφαρμόζεται η Μέθοδος των Ελαχίστων Τετραγώνων στην περίπτωση που έχουμε 2 ανεξάρτητες μεταβλητές X1 και X2.
Έτσι αν έχουμε:
Yi = a + b1x1i + b2x2i + vi, i = 1,...,n,
με τη μέθοδο αυτή επιλέγουμε τους εκτιμητές ,, για τις παραμέτρους a,b1 και b2, αντίστοιχα, έτσι ώστε
Q = SSE = = ελάχιστο.
Μηδενίζοντας τις μερικές παραγώγους της Q αναφορικά με , και , έχουμε
= 0 = 0 (2)
= 0 = 0 (3)
= 0 = 0 (4)
Οι τελευταίες είναι οι λεγόμενες κανονικές εξισώσεις.
Η εξίσωση (2) γράφεται ισοδύναμα
= n + +
ή = + + (5)
όπου = , = και =
Η εξίσωση (3) γράφεται ισοδύναμα
= + + (6)
Αν εισαγάγουμε τους εξής συμβολισμούς:
S11 = S1Y =
S12 =
S22 =
S1Y =
S2Y =
SYY =
και αν στην (6) αντικαταστήσουμε το που δίνεται από την (5) έχουμε οτι:
S1y = + (7)
Ανάλογα εργαζόμενοι έχου,ε οτι η εξίσωση (4) γρ'αφεται ισοδύναμα
S2y = + (8)
Αν λύσουμε τις δύο τελευταίες εξισώσεις ως προς και , έχουμε
= ,
-
-
-
-
-
- (9)
-
-
-
-
= ,
όπου Δ = . Εφ' όσον γνωρίζουμε τα και , εύκολα λαμβάνουμε το από την (5).
Έτσι έχουμε =
Στην περίπτωση που είχαμε τρεις ανεξάρτητες μεταβλητές, τότε οι (5), (7),(8), γράφονται
=
και S1y = + +
- S2y = + +
- S3y = + +
Με τις εξισώσεις (5),(7),(8), βρίσκουμε την γραμμική συνάρτηση που προσαρμόζεται στα δεδομένα όταν έχουμε δύο ανεξάρτητες μεταβλητές X1,X2. Έτσι για κάθε ζεύγος (x1,x2) έχουμε ένα προβλεπόμενο , τέτοιο ώστε
=
Η τελευταία δεν είναι παρά μια εξίσωση του επιπέδου στο χώρο. Αν έχουμε όμως περισσότερες από δύο ανεξάρτητες μεταβλητές, έστω x1,x2,...,xk τότε το προβλεπόμενο ικανοποιεί την
=
που αποτελεί την εξίσωση του υπερεπιπέδου.
Οι κανονικές εξισώσεις με μήτρες
Οι κανονικές εξισώσεις μπορούν να γραφούν συνοπτικά με μήτρες ως εξής: (1)
όπου Χ' η ανάστροφη της Χ.
Οι εκτιμητές των ελαχίστων τετραγώνων δίνονται από την σχέση: (2)
όπου (X'X) − 1 είναι η αντίστροφη της Χ'Χ.
Αν χρησιμοποιηθούν μήτρες, η σχέση (1) προκύπτει ως εξής:
Το διάνυσμα των καταλοίπων είναι:
και επομένως Φ=
είναι το άθοισμα των τετραγώνων των αποκλίσεων (καταλοίπων) δηλαδή το .
Αναπτύσουμε την παραπάνω σχέση, οπότε:
Φ=
όμως = γιατί = και είναι ένας αριθμός. Επομένως η παραπάνω σχέση γράφεται
Φ=
Παραγωγίζουμε την συνάρτηση και εξισώνουμε τις μερικές πρώτες παραγώγους με το μηδέν οπότε:
όπου μηδέν παριστάνει το μηδενικό διάνυσμα στήλης διαστάσεων k+1 x 1
Επομένως,
Από την σχέση (2) βλέπουμε ότι για να έχει λύση το σύστημα θα πρέπει να υπάρχει η αντίστροφη (X'X) − 1 της συμμετρικής μήτρας (Χ'Χ) αυτό συνεπάγεται πως, εφόσον η Χ'Χ είναι διαστάσεων k+1 x k+1 ο βαθμός της μήτρας θα πρέπει να είναι k+1 που με τη σειρά του προυποθέτει ότι ο βαθμός της μήτρας Χ είναι k+1
Απλή και πολλαπλή παλινδρόμηση και ελάχιστα τετράγωνα
Στην απλή παλινδρόμηση, η ελαχίστων τετραγώνων εκτίμηση ελαχιστοποιεί το άθροισμα των τετραγώνων των σφαλμάτων σε σχέση με τη γραμμή παλινδρόμησης. Ενώ στην πολλαπλή παλινδρόμηση, η ελαχίστων τετραγώνων εκτίμηση ελαχιστοποιεί το άθροισμα των τετραγώνων των σφαλμάτων σε σχέση με το επίπεδο παλινδρόμησης.
Περίπτωση κ ανεξάρτητων μεταβλητών
Στην περίπτωση την οποία έχουμε κ ανεξάρτητες μεταβλητές, η εξίσωση παλινδρόμησης είναι: E(Y | X1,X2) = α + β1Xi1 + β2Xi2 + ... + βkXik
Ο εκτιμητής της συνάρτησης παλινδρόμησης είναι η επιφάνεια: .
Η πραγματική τιμή του Y , είναι η τιμή πρόβλεψης (), συν τα κατάλοιπα, e.
Οι εκτιμητές των παραμέτρων προκύπτουν με τη μέθοδο των ελαχίστων τετραγώνων.
Ελαχιστοποιούμε το τετραγωνικό σφάλμα, δηλαδή το τετράγωνο της απόστασης της εκτίμησης για το Y απο την παρατηρηθείσα τιμή.
Οι εκτιμητές των παραμέτρων βi βρίσκονται θεωρώντας τις μερικές παραγώγους της συνάρτησης Q ως προς κάθε παράμετρο βi. Δηλαδή:
, i=1,2,...,k
Η επίλυση των εξισώσεων που προκύπτουν, λόγω της πολυπλοκότητας των πράξεων γίνεται συνήθως στον υπολογιστή με υπολογιστικά πακέτα.
Παράδειγμα 1
Θεωρούμε μια εξαρτημένη μεταβλητή (Y) και 2 ανεξάρτητες μεταβλητές (X1), (X2). Όταν θεωρήσουμε ένα γραμμικό μοντέλο της μορφής
οι εκτιμητές των παραμέτρων της παλινδρόμησης προκύπτουν με τη μέθοδο των ελαχίστων τετραγώνων.
Στο R δίνουμε ένα παράδειγμα:
> y=c(10,15,20,25,30,35,40,45,50) > x1=c(2,5,9,12,14,17,21,25,26) > x2=c(107,102,91,82,68,54,52,50,45) > lm(y~x1+x2)
Call: lm(formula = y ~ x1 + x2)
Coefficients: (Intercept) x1 x2 17.72956 1.33872 -0.09975
Οι συντελεστές των μεταβλητών X1 και X2 είναι οι εκτιμητές της εξίσωσης παλινδρόμησης και προκύπτουν με τη μέθοδο των ελαχίστων τετραγώνων.
Παράδειγμα 2
> y=c(16,45,10,35,38,28,32,41,57)
> x1=c(4,8,9,13,14,16,18,18,19)
> x2=c(110,90,86,84,72,63,61,42,25)
> lm(y~x1+x2)
Call: lm(formula = y ~ x1 + x2)
Coefficients: (Intercept) x1 x2
78.7399 -0.7123 -0.5085
>Οι συντελεστές των μεταβλητών x1 και x2 είναι οι εκτιμητές της εξίσωσης παλινδρόμησης και προκύπτουν με τη μέθοδο των ελαχίστων τετραγώνων όπως στο προηγούμενο παράδειγμα και παρατηρούμε ότι είναι αρνητικοί αριθμοί, κάτι που θα επηρεάσει σαφώς και την ευθεία παλινδρόμησης η οποία θα ξεκινά από τον αρνητικό άξονα.
Παράδειγμα 1
Το κόστος της διαφήμισης ανά σελίδα σε 48 περιοδικά ευρείας κυκλοφορίας έχει διαπιστωθεί ότι εξαρτάται από τον αριθμό των αντιτύπων που πωλείται έκαστο , από το φύλο του αναγνωστικού κοινού και το εισόδημα των αναγνωστών. Έτσι αν είχαμε τα ακόλουθα δεδομένα,
α/α ΚΟΣΤΟΣ ΑΝΑ ΣΕΛΙΔΑ X1(πωλήσεις αντιτύπων) X2(ποσοστά ανδρών) X3(ετήσιο εισόδημα) 1 73.820 8.000 22 23.241 2 35.140 845 72 30.884 3 23.795 725 88 25.982 4 28.980 2.250 17 22.785 5 21.886 1.250 42 16.505 6 62.7750 7.450 13 21.785 7 33.760 2.000 79 24.337 8 25.090 700 74 36.783 9 30.040 670 71 35.204 10 24.340 1.800 6 21.828 11 26.625 1.025 82 32.949 12 58.020 5.000 13 21.828 13 16.200 650 8 25.358 14 20.400 850 78 23.056 15 25.430 1.000 19 23.726 16 19.775 800 16 24.198 17 48.000 5.000 12 21.583 18 16.280 1.000 9 23.660 19 59.830 6.200 12 20.690 20 24.815 1.600 81 22.568 21 25.740 1.000 58 31.587 22 21.905 750 84 23.878 23 7.845 450 16 24.107 24 26.500 4.637 40 19.969 25 95.575 8.400 55 26.294 26 9.900 580 72 22.888 27 63.850 2.950 62 26.719 28 28.475 1.500 82 23.596 29 36.960 1.650 22 20.779 30 56.425 2.350 40 23.971 31 55.710 5.000 78 24.051 32 7.220 650 36 19.329 33 26.932 1.600 81 25.474 34 26.820 1.800 80 26.542 35 97.700 17.900 44 21.802 36 42.675 3.800 11 22.794 37 18.775 630 89 28.093 38 17.770 700 66 24.074 39 24.000 720 68 29.531 40 19.250 1.500 9 21.251 41 54.165 2.250 80 26.275 42 21.350 3.400 35 19.156 43 85.870 4.400 56 26.908 44 13.435 1.400 18 14.325 45 77.400 17.345 45 20.461 46 42.510 2.050 63 26.998 47 18.000 950 11 23.452 48 60.435 7.125 8 21.910
Μέσος 36.629 3.048 46.3 24.277 Τυπική 22.973 3.756 29.1 4.271 απόκλιση
Η εξίσωση παλινδρόμησης θα είναι:
και
Οι εκτιμητές ,υπολογίζονται με βάση τις εξισώσεις:
Δηλαδή,
Η τελευταία μας λέει πως μία αύξηση του αριθμού αντιτύπου (X1) κατά μία χιλιάδα, και εφ'όσον οι άλλοι παράγοντες παραμένουν σταθεροί, θά έχουμε μία αύξηση του κόστους διαφήμισης κατά 5.28.Ενώ αν έχουμε μια αύξηση κατά ένα ποσοστό του ανδρικού αναγνωστικού κοινού (X2) και οι άλλοι παράγοντες παραμένουν σταθεροί, θα έχουμε μια ελάττωση του κόστους διαφήμισης κατά 11 δολάρια. Η τιμή -8.643 μας λέει ότι αν δεν έχουμε πωλήσεις (X1), δεν υπάρχουν άντρες αναγνώστες (X2),και οι αναγνώστες δεν έχουν εισόδημα (X3),το τυπικό κόστος για μία σελίδα διαφήμισης στο περιοδικό θα είναι -8.643 δολάρια.Ίσως,κάποιος αναρωτηθεί ότι υπάρχει κάποιο λάθος.Στην πραγματικότητα όμως αυτό συμβαίνει επειδή στα δεδομένα μας έχουμε ότι η ελάχιστη πώληση σε περιοδικά είναι η τιμή 450 και όχι 0, το μικρότερο ποσοστό των ανδρών αναγνωστών είναι 6 και όχι 0,κτλ..Έτσι δεν μπορούμε να βγάζουμε συμπεράσματα για δείγματα που είναι πέρα από το εύρος του δείγματος που διαθέτουμε.
Παράδειγμα 2
Y X1 X2 X1X2 (X1)2 (X2)2 X1Y X2Y
72 12 5 60 144 25 864 360
76 11 8 88 121 64 836 608
78 15 6 90 225 36 1170 468
70 10 5 50 100 25 700 350
68 11 3 33 121 9 748 204
80 16 9 144 256 81 1280 720
82 14 12 168 196 144 1148 984
65 8 4 32 64 16 520 260
62 8 3 24 64 9 496 186
90 18 10 180 324 100 1620 900
--- --- --- --- ---- --- ---- ----
7 43 123 65 869 1615 509 9382 5040 :SUM
Οι μεταβλητές b0,b1,b2 υπολογίζονται με βάση τις εξισώσεις:
Κάνουμε αντικατάσταση στις εξισώσεις και προκύπτει:
b0 = 47.164942
b1 = 1.5990404
b2 = 1.1487479
Δηλαδή,
Δεν υπάρχουν σχόλια:
Δημοσίευση σχολίου