Σάββατο 25 Απριλίου 2015

Ισχύς στατιστικών ελέγχων – p-τιμή

Quantitative


Ισχύς στατιστικών ελέγχων – p-τιμή


Το συμπλήρωμα της ποσότητας β, η πιθανότητα δηλαδή να απορριφθεί η μηδενική υπόθεση όταν πράγματι η μηδενική υπόθεση δεν ισχύει, είναι ένα μέτρο της ικανότητας του ελέγχου που έχουμε επιλέξει να λειτουργεί σωστά. Η συνάρτηση αυτή ονομάζεται ισχύς (power) του στατιστικού ελέγχου.
Επειδή, συνήθως, η εναλλακτική υπόθεση είναι σύνθετη, περιέχει δηλαδή περισσότερες από μία πιθανές τιμές της παραμέτρου, δεν είναι δυνατόν να υπολογισθεί ένα μόνο β που να αντιστοιχεί σε κάθε α αλλά υπάρχει μια τιμή του β που αντιστοιχεί σε κάθε μιά από τις ενδεχόμενες τιμές της παραμέτρου που μελετάμε κάτω από την εναλλακτική υπόθεση. Για τον λόγο αυτό, πολύ συχνά μελετάμε την γραφική παράσταση της πιθανότητας του λάθους τύπου II, δηλαδή του β, ως συνάρτησης της πραγματικής τιμής της παραμέτρου. Η γραφική αυτή παράσταση ονομάζεται καμπύλη λειτουργικών χαρακτηριστικών του στατιστικού ελέγχου (operating characteristic curve).

Αντίστοιχα, η γραφική παράσταση του 1-β, της ισχύος δηλαδή του στατιστικού ελέγχου, ονομάζεται καμπύλη ισχύος (power curve) του στατιστικού ελέγχου. Για σταθερές τιμές του δείγματος n και του α η ισχύς ενός ελέγχου θα πρέπει να αυξάνει όσο μεγαλώνει η απόσταση μεταξύ της πραγματικής και της υποθετικής τιμής της παραμέτρου. Δοθέντος ότι η περιοχή απόρριψης καθορίζεται και παραμένει σταθερή για κάποιο δεδομένο έλεγχο, το α θα παραμένει επίσης σταθερό. Η καμπύλη των λειτουργικών χαρακτηριστικών εξάλλου θα περιγράφει τα χαρακτηριστικά του στατιστικού ελέγχου.


Οποιαδήποτε αύξηση του μεγέθους n του δείγματος θα ελαττώνει το β και θα μειώνει την τιμή του για όλες τις εναλλακτικές τιμές της παραμέτρου η οποία βρίσκεται υπό έλεγχο. Υπάρχει επομένως για κάθε μέγεθος δείγματος μια αντίστοιχη καμπύλη λειτουργικών χαρακτηριστικών του δείγματος.
Γνωρίζουμε ότι για τον έλεγχο μιας υπόθεσης συγκρίνεται η κρίσιμη τιμή της στατιστικής ελέγχου, για δεδομένο επίπεδο σημαντικότητας α, με την τιμή της στατιστικής από το δείγμα. Το επίπεδο σημαντικότητας α που παριστάνει την πιθανότητα να αποριφθεί η 0 υπόθεση όταν είναι σωστή, επιλέγεται αυθέραιτα από τον ερευνητή. Δεδομένης της τιμής της στατιστικής ελέγχου από το δείγμα, μπορεί να υπολογιστεί η ακριβείς πιθανότητα να βρεθεί μία (απόλυτη) τιμή της Ζ ίση ή μεγαλύτερη από αυτήν του δείγματος. Η πιθανότητα αυτή ονομάζετα τιμή Ρ (P value) ή το ακριβές επίπεδο σημαντικότητας και παριστάνει το χαμηλότερο επίπεδο σημαντικόητας στο οποίο μπορεί να αποριφθεί η 0 υπόθεση. Ο έλεγχος της 0 υπόθεσης μπορεί να γίνει συγκρίνντας την τιμή P με το (αυθέραιτα) επιλεγμένο επίπεδο σημαντικότητας α. Η 0 υπόθεση απορρίπτεται αν Ρ<α

Η πιθανότητα να μην απορρίψουμε μία όντως αληθή Η0 καθορίζεται από τη σ.σ. α: 1 − α = Ρ(μη απόρριψης της Η0 / Η0 αληθής) (1)

Η πιθανότητα γ να απορρίψουμε μία όντως ψευδή Η0 καθορίζεται από το σφάλμα β και ονομάζεται ισχύς (power) του στατιστικού ελέγχου:

γ = 1 − β = Ρ(απόρριψης της Η0 / Η0 λανθασμένη) (2)

Οι σχέσεις (1) και (2) εκφράζουν την πιθανότητα να έχουμε πάρει σωστή απόφαση σε ένα στατιστικό έλεγχο.

Άρα, για να μπορέσουμε, με βάση τα δεδομένα, να καταλήξουμε σε σχετικά ασφαλή και αξιόπιστα συμπεράσματα, θα πρέπει ο στατιστικός έλεγχος να ελαχιστοποιεί τα σφάλματα α και β. Όμως κάθε προσπάθεια μείωσης του ενός κινδύνου αυξάνει τον άλλο. Σε πρακτικό επίπεδο, προσπαθούμε να μειώσουμε το σπουδαιότερο από τους δύο κινδύνους.
Κολυβά-Μαχαίρα και Μπόρα-Σέντα 1996, Τσάντας κ.ά. 1999

Η ισχύς μιας στατιστικής δοκιμής είναι η πιθανότητα της απόρριψης της μηδενικής υπόθεσης όταν η μηδενική υπόθεση είναι ψευδής.
Ισχύς = 1-β , β η πιθανότητα σφάλματος τύπου ||.

Παράγοντες που επηρεάζουν την ισχύ του ελέγχου

1)Η ισχύς εξαρτάται από την απόσταση μεταξύ της τιμής της παραμέτρου κάτω από την μηδενική υπόθεση και της αληθινής τιμής της εν λόγο παραμέτρου.Όσο μεγαλύτερη αυτή η απόσταση, τόσο μεγαλύτερη η ισχύς της.
2)Η ισχύς εξαρτάται από την τυπική απόκλιση του πληθυσμού:Όσο μικρότερη η τυπική απόκλιση τόσο μεγαλύτερη η ισχύς της.
3)Η ισχύς εξαρτάται από το χρησιμοποιημένο μέγεθος δείγματος.Όσο μεγαλύτερο το δείγμα τόσο μεγαλύτερη η ισχύς της.
4)Η δύναμη εξαρτάται από το επίπεδο σημαντικότητας της δοκιμής.Όσο μικρότερο το επίπεδο σημαντικότητας α,τόσο μαγαλύτερη η ισχυ.

Η p-τιμή
Είναι η πιθανότητα να λάβουμε μια τιμή από μια στατιστική δοκιμή τόσο ακραία ή περισσότερο ακραία από την πραγματική τιμή όταν η μηδενική υπόθεση είναι αληθής.Η p-τιμή αποτελεί το ελάχιστο επίπεδο σημαντικότητας α,για το οποίο η μηδενική υπόθεση πρέπει να απορριφθεί χρησιμοποιώντας την τιμή που προκύπτει από τη στατιστική δοκιμή.Τέλος , όταν η p-τιμή είναι μικρότερη από την α η μηδενική υπόθεση πρέπει να απορριφθεί.

 


Παράδειγμα

Μια εταιρεία ενδιαφέρεται να ελέγξει αν το ποσοστό των σκουριασμένων ραβδών χάλυβα στην αποθήκη της είναι 19%. Ο έλεγχος είναι δίπλευρος κι η στατιστική υπόθεση είναι: H0 : p = 0.19 και H1 : ρ # 0.19. Για τον έλεγχο αυτό χρησιμοποιήθηκε το δείγμα 12 σκουριασμένων ραβδών σε δείγμα 100. Η κρίσιμη τιμή για τη στατιστική ελέγχου σε επίπεδο σημαντικότητας α = 0.05 είναι z0,975 = 1.96 κι η περιοχή απόρριψης είναι R = {z| |z| > 1.96}. Η εκτίμηση της αναλογίας από το δείγμα των 100 ραβδών είναι p = 0.12 κι από τη σχέση
z=\frac{\hat{p} - p_0}{\frac{\sqrt{p_0 (1- p_0)}}{n}} \sim N(0,1)
βρίσκουμε τη στατιστική ελέγχου από το δείγμα

z= \frac{0.12-0.19}{\sqrt{0.19 \frac{0.81}{100}}} 

Η τιμή της z οριακά δεν ανήκει στην R κι άρα δε μπορούμε να απορρίψουμε την H0 και συμπερ¬αίνουμε πως το ποσοστό των σκουριασμένων ραβδών μπορεί και να είναι 19%. Αν τώρα η εταιρεία γνωρίζει από προηγούμενους ελέγχους ότι είναι απίθανο το ποσοστό των σκουριασμένων ραβδών στην αποθήκη της να κυμαίνεται σε επίπεδα μεγαλύτερα του 19% κι
αυτό το ποσοστό είναι το όριο της αγοράς που δε Θα πρέπει να ξεπερνάει το κάθε φορτίο ραβδών χάλυβα, τότε η εταιρεία ενδιαφέρεται να ελέγξει αν πράγματι το ποσοστό των σκουριασμένων ραβδών στην αποθήκη της δεν φτάνει αυτό το όριο. Ο έλεγχος εδώ είναι μονόπλευρος κι η στατιστική υπόθεση είναι: H0 : p \leq 0.19 και H1 : p < 0.19. Η δειγματική στατιστική ελέγχου είναι η ίδια, \tilde{z} = -1.784, αλλά η κρίσιμη τιμή για το ίδιο επίπεδο σημαντικότητας α = 0.05 είναι z0.95 = 1.65 κι η περιοχή απόρριψης είναι R = {z| z < - 1.65}. Άρα σ' αυτήν την περίπτωση μπορούμε (οριακά πάλι) να απορρίψουμε την Η0 και να συμπεράνουμε ότι το ποσοστό των σκουριασμένων ραβδών στην αποθήκη της εταιρείας δε ξεπερνάει το όριο της αγοράς 19%. Το ανώτατο επίπεδο εμπιστοσύνης που μπορούμε να απορρίψουμε την H0 : p \geq 0.19 είναι περίπου 96% όπως προκύπτει από την ρ-τιμή που αντιστοιχεί στη δειγματική στατιστική του μονόπλευρου ελέγχου
P(z < \tilde{z}) = P(z < -1.784) = Φ(-1.784) = 1 - Φ(1.784) = 1 - 0.963 = 0.037.

Το παράδειγμα αυτό δείχνει πως γενικά ο δίπλευρος έλεγχος είναι πιο αυστηρός από τον μονόπλευρο γιατί στο δίπλευρο έλεγχο η ουρά της κατανομής (στα αριστερά και δεξιά) που αποτελεί την περιοχή απόρριψης είναι μικρότερη (μισή σε μέγεθος) από την αντίστοιχη ουρά για το μονόπλευρο έλεγχο.

 

Παράδειγμα 2

Τυχαίο δείγμα μεγέθους 9 λαμβάνεται από κανονικό πληθυσμό Ν(μ,25). Δίνεται Xδ=1.3. Να ελεγχεί η μηδενική υπόθεση H0: μ=2 έναντι της H1: μ=3 με επίπεδο σημαντικότητας α=0.05 και να υπολογιστεί η ισχύς.
Λύση Η στατιστική ελέγχου είναι : t=\frac{\sqrt{n}\times(X_{\mu}-\mathit{{\mu}}_{0})}{\sigma}= z=\frac{\sqrt{n}\times(1.3-2)}{5}=-0.42
και zα=z0.05=1.65
και αφού -0.42<1.65 δεν απορρίπτουμε τη μηδενική υπόθεση.
Η ισχύς υπολογίζεται ως εξής:
ΠΙΘΑΝΟΤΗΤΑ(απόφασίζουμε για την H1 όταν H1 είναι σωστή)=
β=P(\frac{\sqrt{n}\times(X_{\mu}-\mathit{{\mu}}_{0})}{\sigma}>zα/A)=1-Φ(1.05)=0.146.
Η τιμή της ισχύος είναι 0.146.

 

Παράδειγμα 3

Η βαθμολογία (με άριστα το 100), των μαθητών μιας τάξης ακολουθεί κανονική κατανομή Ν(μ,100) με μ=60. Μια νέα μέθοδος υπόσχεται ότι η μέση βαθμολογία θα αυξηθεί κατά 10 μονάδες. Υποθέτουμε ότι έχουμε ένα δείγμα μεγέθους ν=25 και ζητάμε να κάνουμε τον έλεγχο Ho: μ=60 έναντι της υπόθεσης H1: μ>60.

Λύση
Αν υποθέσουμε ότι απορρίπτουμε την Ho έναντι της H1 αν \bar{x}>62, τότε η ισχύς του ελέγχου είναι:

Π(μ)= 1-P (Δεχόμαστε Ho αν ισχύει η H1) \Rightarrow= 1-P(\bar{x}\leq62)= 1-P[\frac{\bar{x}-\mu}{\frac{10}{\sqrt{25}}}\leq \frac{62-\mu}{{\frac{10}{\sqrt{25}}}}]= 1- \phi(\frac{62-\mu}{2})=\phi(\frac{\mu-62}{2}), όπου μ>62.

Δεν υπάρχουν σχόλια:

Δημοσίευση σχολίου