Τετάρτη 4 Νοεμβρίου 2015

Δειγματοληπτικές κατανομές.

Quantitative



1. X2 κατανομή



'Εννοια και μορφή της x2
Για την αθροιστική κατανομή x2 έχουν κατασκευαστεί πίνακες που δίνουν τις τιμές της x2 για διάφορες τιμές του ν. Το ν είναι οι βαθμοί ελευθερίας και αποτελεί την μόνη παράμετρο από την οποία εξαρτάται η κατανομή x2. Διαγραμματικά η κατανομή αλλάζει μορφή ανάλογα με την τιμή του ν. Η συμμετρικοτητά της αυξάνεται όσο αυξάνεται η τιμή του ν και για μεγάλες τιμές του τελευταίου η καμπύλη προσεγγίζει την μορφή της καμπύλης της κανονικής κατανομής.

ο Έλεγχος x2

Ορισμός και χρήση του x2
Αν n Z1 , Z2 ,..., Zn 1 2 είναι n ανεξάρτητες τυποποιημένες κανονικές τυχαίες μεταβλητές, δηλαδή, αν Zi N ~ (0, 1), i = 1,2,..., n , τότε η κατανομή της τυχαίας μεταβλητής, X = Z_1^2 + Z_2^2 +.....+ Z_n^2 ονομάζεται κατανομή χι-τετράγωνο με n βαθμούς ελευθερίας και συμβολίζεται με x2 .
Είναι προφανές ότι πρόκειται για οικογένεια κατανομών. Για κάθε τιμή του n παίρνουμε και μια άλλη κατανομή χι-τετράγωνο. Είναι επίσης προφανές ότι μια τυχαία μεταβλητή Χ που ακολουθεί μια x_2^n κατανομή δεν παίρνει αρνητικές τιμές.
Τα κριτήρια ελέγχου (z, t, F) που έχουμε χρησιμοποιήσει ως τώρα έχουν περιορισμούς ως προς τα δείγματα (ίσες διασποράς, μέγεθος) και την κανονικότητα του πληθυσμού. Για να κάνουμε ελέγχους εκεί όπου οι προϋποθέσεις αυτές παραβιάζονται, εφαρμόζουμε το κριτήριο του x2.
Το x2 μας λέει τι πιθανότητα έχουμε να πάρουμε το συγκεκριμένο δείγμα από πληθυσμό με συγκεκριμένη κατανομή. Το x2 χρησιμεύει σε περιπτώσεις όπου οι άλλοι έλεγχοι δεν είναι εύκολο να εφαρμοστούν, π.χ. όταν τα δεδομένα είναι κατηγοριοποιημένα σε μη ποσοτικές κατηγορίες, ή όταν τα δεδομένα δεν έχουν κανονική κατανομή ή ίσες διακυμάνσεις.
Ορισμός: x_2 = \sum_{i=1}^n \Bigg[ \frac{(f_i -F_i)^2}{F_i} \Bigg]
όπου F η προβλεπόμενη και f η παρατηρούμενη συχνότητα για μια κατηγορία. Εύκολα βλέπουμε ότι πρόκειται για άθροισμα τετραγώνων των ποσοστιαίων διαφορών συχνοτήτων, σταθμισμένων με τις θεωρητικές συχνότητες.
Έλεγχος ανεξαρτησίας του Χ2
Ο έλεγχος αυτός ανήκει στην κατηγορία των μη παραμετρικών ελέγχων και ακολουθεί την κλασική μεθοδολογία ελέγχου ανεξαρτησίας ακολουθώντας τα παρακάτω βήματα:
Βήμα 1
Γράφω τις δύο υποθέσεις για την ύπαρξη της αυτοσυσχέτισης.
Ηο: Δεν υπάρχει αυτοσυσχέτιση ρ = 0 Ηα: Υπάρχει αυτοσυσχέτιση ρ ≠ 0
Βήμα 2
Σχηματίζοντας την X2 κατανομή βρίσκω το κρίσιμο σημείο για επίπεδο σημαντικότητας 5% και βαθμούς ελευθερίας ν = 1.
Βήμα 3
Εκτιμούμε τη βασική συνάρτηση με τη μέθοδο των ελαχίστων τετραγώνων και σώζουμε τα κατάλοιπα ut − 1.
Βήμα 4
Κατασκευάζω ένα πίνακα 2Χ2 και τοποθετώ τα κατάλοιπα ut στις δύο κάθετες στήλες αφού πρώτα τα χωρίσω σε θετικά και αρνητικά, και στις δύο οριζόντιες σειρές τα κατάλοιπα ut − 1 αφού και αυτά τα χωρίσω σε θετικά και αρνητικά.
Βήμα 5
Υπολογίζουμε την ποσότητα:
(n-1)( α δ - β γ) \ (α+γ)(β+δ)(α+β)(γ+δ)
Βήμα 6
Αν η ποσότητα X2 >X2(1) τότε απορρίπτω την Ηο

Παράδειγμα: Προβλέπουμε (π.χ. με βάση στοιχεία του DNA) ότι ο τοπικός πληθυσμός θα έχει 40% μελαχροινούς, 40% ξανθούς και 20% κοκκινομάλληδες. Αν πάρουμε ένα δείγμα από 50 άτομα, περιμένουμε να βρούμε 20, 20 και 10, αντίστοιχα - αυτό είναι η θεωρία μας ή η μηδενική υπόθεση.

f F f-F (f-F)2 (f-F)2/F
30 20 10  100   5
15 20 -5  25  1.25
5 10 -5  25  2.50
Αρα, x2= 8.75
Έχουμε τρεις κατηγορίες, άρα 2 βαθμούς ελευθερίας. Ανατρέχουμε σε πίνακες κρίσιμων σημείων της κατανομής του χ2 που έχουν την ίδια λογική όπως και οι άλλοι που έχουμε δει ως τώρα και βλέπουμε για df = 2 Βλέπουμε ότι υπάρχει 2.5% πιθανότητα να προκύψει τιμή πάνω από 7.377 κατά τύχη, άρα η παρατηρούμενη διαφορά είναι σημαντική και η αρχική θεωρία απορρίπτεται. Αλλο παράδειγμα. Διατυπώνεται η θεωρία ότι το Σαββατοκύριακο τα τροχαία αυξάνονται. Δεν έχουμε τη δυνατότητα για σαφή αριθμητική πρόβλεψη άρα διατυπώνουμε μηδενική υπόθεση βάσει ομοιόμορφης κατανομής = κάθε μέρα ίδια πιθανότητα ατυχημάτων και συγκρίνουμε αντίστοιχη πρόβλεψη με συγκεκριμένο δείγμα. Π.χ. αν είχαμε 70 παρατηρήσεις, σύμφωνα με τη μηδενική υπόθεση θα είχαμε 10 τροχαία την ημέρα.
Παρατήρηση
• Όπως είναι διατυπωμένο το κριτήριο, δεν έχει σημασία η σειρά των κατηγοριών, άρα αν τους αλλάξουμε τη σειρά, πάλι την ίδια τιμή θα πάρουμε • Πρέπει να κυττάζουμε πάλι τα δεδομένα για να δούμε αν όντως επιβεβαιώνουν την εναλλακτική υπόθεση εκτός από το να διαψεύδουν τη μηδενική. Π.χ. δοκιμάζουμε ζιζανιοκτόνο για συγκεκριμένα φυτά και μετράμε τον πληθυσμό πριν και μετά. Η μηδενική υπόθεση θα ήταν ότι δεν υπήρχε μεταβολή στους σχετικούς πληθυσμούς. Κάθε σημαντική μεταβολή θα τη διαψεύσει, αλλά μπορεί να μην είναι η επιθυμητή (δηλαδή, το ζιζανιοκτόνο να σκοτώνει λάθος φυτά)

Παράδειγμα
Η 0,05-τιμή της \mathit{{\chi}}_{n}^{2}- κατανομής είναι
α)ίση με 31.41 για n=20
β)προσεγγιστικά ίση με \frac{1}{2}(-1.645=\sqrt{99})^{2}=34.49 για n=50.
Μια τυχαία μεταβλητή X2 που ακολουθεί την \mathit{{\chi}}_{n}^{2}-κατανομή έχει μέση τιμή Ε(X2)=n και διακύμανση Var(X2)=2n.

ΔΙΟΡΘΩΣΗ ΣΥΝΕΧΕΙΑΣ ΤΟΥ YATES
X2 διορθωμένη =
(f1 − F1 − 0.5)2 /F1+ (f2 − F2 − 0.5)2 /F2 +……+( < math > fk-FK│-0.5)^2</math> /F3
Η εξίσωση αυτή αποτελεί την "διορθωση" της παραπάνω. Με άλλα λόγια όταν σε διακριτά δεδομένα έχουν εφαρμοστεί τα αποτελέσματα για συνεχείς κατανομές τότε χρησιμοποιούμε αυτή την εξίσωση για να θεωρηθούν τα δεδομένα ως συνεχή.
Ωστόσο η διόρθωση αυτή γινεται μόνο όταν το πλήθος των βαθμών ελευθερίας ισούται με 1.

ΒΙΒΛΙΟΓΡΑΦΙΑ: MYRRAY R SPIEGEL-LARRY J. STEPHENS, ΣΤΑΤΙΣΤΙΚΗ 3η ΕΚΔΟΣΗ, ΚΕΦΑΛΑΙΟ 12 Ο ΕΛΕΓΧΟΣ Χ ΣΤΟ ΤΕΤΡΑΓΩΝΟ, ΕΚΔΟΣΕΙΣ ΤΖΙΟΛΑ



2.T-κατανομή



Αν η τυπική απόκλιση του πληθυσμού,σ, είναι άγνωστη, αντικαθηστούμε το σ με την τυπική απόκλιση του δείγματος, s. Αν ο πληθυσμός είναι κανονικός τότε η:

t = \frac {\bar{X} - \mu }{s / \sqrt {n}}

 center
Παρατηρείστε στο παραπάνω σχήμα ότι η γραφική παράσταση της συνάρτησης πυκνότητας της n έχει κωδωνοειδή μορφή και είναι συμμετρική ως προς τον κατακόρυφο άξονα στο 0.
Η κατανομή του t μοιάζει με την κανονική κατανομή και για μεγάλα δείγματα τείνει να ταυτιστεί με την κανονική.
Ικανοποιεί την t κατανομή με (n-1) βαθμούς ελευθερίας.
  • Η t είναι μια οικογένεια συμμετρικών μορφής καμπάνας κατανομών, μία για κάθε βαθμό ελευθερίας.
  • Η αναμενόμενη τιμή της t είναι 0.
  • Η διακύμανση της t είναι μεγαλύτερη από 1, αλλά προσεγγίζει το 1 καθώς το πλήθος των βαθμών ελευθερίας αυξάνει. Η t είναι πιο επίπεδη με φαρδύτερα άκρα από την κανονική κατανομή.
  • Η t κατανομή προσεγγίζει την κανονική κατανομή καθώς το πλήθος των βαθμών ελευθερίας αυξανεται.

Αν η τυχαία μεταβλητή Τ ακολουθεί την tn (n>2) τότε έχει
  • μέση τιμή Ε(Τ)=0 και
  • διακύμανση var(T)=\frac{n}{n-2}.
Η καμπύλη συχνοτήτων της t-κατανομής είανι ίδια με της τυποποιημένης κατανομής. Έχει σχήμα καμπάνας και είναι συμμετρική ως προς το 0. Αλλά επειδή /sigma _t^2 >1αφου n/(n-2)>1 η t-κατανομή είανι πιο πλατύκυρτη από την κανονική.
Όταν το πλήθος των βαθμών ελευθερίας n = ν -1 αυξάνει η t-κατανομή πλησιάζει την κανονική.

ΠΑΡΑΔΕΙΓΜΑ
Ποιοί είναι οι συντελεστές για την κατανομή t εάν n=2 & n=30.Γνωρίζεται ακόμα ότι οι συντελεστές εμπιστοσύνης 95% δίπλευρου ελέγχου είναι +-1,96.
ΑΠΑΝΤΗΣΗ:
0,05 θα είναι το συνολικό σκιασμένο εμβαδόν για τους συντελεστές 95%. Άρα το αντίστοιχο εμβαδόν της δεξιάς ουράς θα είναι 0,025 και η t=t.975.Επομένως και οι ζητούμενοι συντελεστές εμπιστοσύνης 95% = +-t.975.Ως προς το n για 20 τοτε+-2,26 και για n για 30+-2,04.
ΒΙΒΛΙΟΓΡΑΦΙΑ:MYRRAY R. SPIEGEL- LARRY J. STEPHENS, ΣΤΑΤΙΣΤΙΚΗ 3ηΕΚΔΟΣΗ,ΕΚΔΟΣΕΙΣ ΤΖΙΟΛΑ



3. Η κατανομή F


Η κατανομή F εκφράζει την κατανομή του λόγου δύο τυχαίων μεταβλητών που ικανοποιούν την κατανομή x2 και είναι ανεξλαρτητες μεταξύ τους, ενώ κάθε μία διαιρείται από τους βαθμούς ελευθερίας της.
Η τυχαία μεταβλητή F με k1 και k2 βαθμούς ελευθερίας:
F_{(k_1,k_2)} = \frac { \frac {\chi ^2 _1}{k_1}}{ \frac {\chi ^2 _2}{k_2}}

 center
  • Η τυχαία μεταβλητή F δε μπορεί να είναι αρνητική, άρα φράσσεται δεξιά από το μηδέν.
  • Η καυανομή F είναι ασύμμετρη δεξιά.
  • Η κατανομή F χαρακτηρίζεται από το πλήθος των βαθμών ελευθερίας του αριθμητή, k1 και το πλήθος των βαθμών ελευθερίας του παρανομαστή, k2.'

Κρίσιμα σημεία της F κατανομής:
Αν fa είναι η α-τιμή της Fm,n-κατανομής και f1 − a η 1-α τιμή της Fm,n-κατανομής τότε ισχύει:
f_{a}=\frac{1}{f_{1-a}}

F(6,9), α = 0.10

 center

Το δεξί κρίσιμο σημείο της κατανομής προκύπτει από τους πίνακες:
F(6, 9) = 3.37 
Το ανίστοιχο αριστερό προκύπτει από τη σχέση:
\frac{1}{F_{9,6}} = \frac {1}{4.10} = 0.2439

Βασικές παράμετροι της κατανομής F
Από την αναλυτική έκφραση της συνάρτησης πυκνότητας πιθανότητας της F μπορούν να δειχθούν τα ακόλουθα:
1) Η αναμενόμενη τιμή της F είναι: E(F)=v2/(v2-2) όπου ν2 = βαθμοί ελευθερίας παρονομαστή, όταν το ν2 τείνει στο άπειρο, τότε η μέση τιμή ισούται με την μονάδα
2) Διακύμανση της F δινεται από τον τύπο: Var(F)=[2\nu_2^2(\nu_1+\nu_2-2)]/[\nu_1(\nu_2-2)^2(\nu_2-4)] και ορίζεται για ν2 > 4
3) To σημείο μέγιστης συχνότητας της F δίνεται από την σχέση: F0 = [(ν1 − 2)ν2] / [(ν2 + 2)ν1]


Παρατηρήσεις

Είναι φανερό ότι όταν η Χ έχει πολύ μικρή τιμή και η Υ ΄πολύ μεγάλη, τότε ο λόγος F θα βρίσκεται πολύ κοντά στο μηδέν, όταν όμως συμβαίνει το αντίστροφο τότε ό λόγος τείνει στο άπειρο.
Επίσης παρατηρούμε ότι όσο το ν αυξάνεται τόσο η ασσυμετρία της Fν κατανομής μειώνεται και αυτή τείνει να πάρει την μορφή που έχει η X2 κατανομή με ν2 βαθμούς ελευθερίας.
από την άλλη όταν μεγαλώνουνν ταυτόχρονα τα ν1 και ν2 τότε η Fν1, ν2 συγκλίνει κατά πιθανότητα προς την μονάδα

ΠΑΡΑΔΕΙΓΜΑ

Από δύο κανονικά κατανεμημένους πληθυσμούς με διασπορές 18 και 34 αντίστοιχα λαμβάνονται δύο δείγματα με μεγέθη 6 και 8.
Να προσδιορίσετε την πιθανότητα η διασπορά του πρώτου δείγματος να είναι παραπάνω από διπλάσια απο τη διασπορά του δεύτερου δείγματος.
Ν1=6, Ν2=8, σ1^2=18, σ2^=34
ΑΡΑ:F={6*Si^2/(5)*(18)}/{8*S2^2/(7)(34)}= 2*(S1^2/S2^2)
  • 5=Ν1-1=6-1
  • 7=Ν2-1=8-1
Τώρα αν το S1^2˃2S2^2

Τότε F=2*(S1^2/S2^2)˃(2)*(2)=4




Δεν υπάρχουν σχόλια:

Δημοσίευση σχολίου