Διακύμανση: Διαφορά μεταξύ των αναθεωρήσεων

Περιεχόμενο που διαγράφηκε Περιεχόμενο που προστέθηκε
Χωρίς σύνοψη επεξεργασίας
Δημιουργήθηκε από μετάφραση της σελίδας "Variance"
Γραμμή 61:
 
=== Κατανομή Πουασσόν ===
Η [[κατανομή Πουασσόν]] με παράμετρο λ είναι μια διακριτή κατανομή για ''k'' = 0, 1, 2, ... Η [[:en:Probability_mass_function|συνάρτηση μάζας πιθανότητας]] δίνεται από τον τύπο:
: <math>p(k) = \frac{\lambda^k}{k!} e^{-\lambda},</math>
και έχει αναμενόμενη τιμή μ = λ. Η διακύμανση είναι ίση με:
Γραμμή 68:
 
=== Διωνυμική κατανομή ===
Η [[διωνυμική κατανομή]] με παραμέτρους ''n'' και ''p'' είναι μια διακριτή κατανομή για ''k'' = 0, 1, 2, ..., ''n''. Η [[:en:Probability_mass_function|συνάρτηση μάζας πιθανότητας]] δίνεται από τον τύπο:
: <math>p(k) = {n\choose k}p^k(1-p)^{n-k},</math>
και έχει αναμενόμενη τιμή μ = ''np''. Η διακύμανση είναι ίση με:
Γραμμή 128:
Ένας λόγος για να προτιμηθεί η χρήση της διακύμανσης από άλλα μέτρα διασποράς είναι ότι η διακύμανση του αθροίσματος (ή της διαφοράς) [[ασυσχέτιστων]] μεταβλητών είναι το άθροισμα των διακυμάνσεών τους:
: <math>\operatorname{Var}\left(\sum_{i=1}^n X_i\right) = \sum_{i=1}^n \operatorname{Var}(X_i).</math>
Αυτή η πρόταση ονομάζεται τύπος [[:en:Irénée-Jules_Bienaymé|Bienaymé]] <ref>Loeve, M. (1977) "Probability Theory", ''Graduate Texts in Mathematics'', Volume 45, 4th edition, Springer-Verlag, p.&nbsp;12.</ref> και ανακαλύφθηκε το 1853.<sup class="noprint Inline-Template Template-Fact" style="white-space:nowrap;" contenteditable="false">&#x5B;''<span title="This claim needs references to reliable sources. (February 2013)">citation needed</span>''&#x5D;</sup> Γίνεται συχνά με τηνισχυρότερη προϋπόθεση ότι οι μεταβλητές είναι ανεξάρτητες,αλλά και να είναι ασυσχέτιστες είναι επαρκές.Έτσι, αν όλες οι μεταβλητές έχουν την ίδια διακύμανση σ<sup>2</sup>,τότε , δεδομένου ότι η διαίρεση με το ''n'' είναι ένας γραμμικός μετασχηματισμός , ο τύπος αυτός συνεπάγεται αμέσως ότι η διακύμανση της μέσης τιμής τους, είναι
: <math>\operatorname{Var}\left(\overline{X}\right) = \operatorname{Var}\left(\frac {1} {n}\sum_{i=1}^n X_i\right) = \frac {1} {n^2}\sum_{i=1}^n \operatorname{Var}\left(X_i\right) = \frac {\sigma^2} {n}.</math>
Δηλαδή, η διακύμανση της μέσης τιμής μειώνεται όταν το ''n  ''αυξάνεται . Αυτός ο τύπος για τη διακύμανση της μέσης τιμής χρησιμοποιείται στον ορισμό του βασικού σφάλματος της μέσης τιμής του δείγματος , το οποίο χρησιμοποιείται στο [[Θεώρημα κεντρικού ορίου|κεντρικό οριακο θεώρημα.]] <span class="cx-segment" data-segmentid="304"></span>
Γραμμή 210:
 
=== Μονάδες μέτρησης ===
Σε αντίθεση με την αναμενόμενη απόλυτη απόκλιση, η διακύμανση μιας μεταβλητής έχει μονάδες που είναι το τετράγωνο από τις μονάδες της μεταβλητής. Για παράδειγμα, μια μεταβλητή που μετράται σε μέτρα θα έχει μια απόκλιση που μετράται σε μέτρα στο τετράγωνο. Για το λόγο αυτό, η περιγραφή των συνόλων δεδομένων μέσω της [[:en:Standard_deviation|τυπικής απόκλισης]] ή της [[Ρίζας μέσης τετραγωνικής απόκλισης|ρίζας μέσης τετραγωνικής απόκλισης]] συχνά προτιμάται σε σχέση με τη διακύμανση. Στο παράδειγμα με τα ζάρια, η τυπική απόκλιση √2.9&#x20;≈&#x20;1.7, ελαφρώς μεγαλύτερο από την αναμενόμενη απόλυτη απόκλιση&#x20;1.5.
 
Η τυπική απόκλιση και η αναμενόμενη απόλυτη απόκλιση μπορούν να χρησιμοποιηθούν ως δείκτης της "εξάπλωσης" της κατανομής. Η τυπική απόκλιση είναι πιο δεκτική στην αλγεβρική χειραγώγηση από την αναμενόμενη απόλυτη απόκλιση, και, μαζί με τη διακύμανση και τη γενίκευση [[:en:Covariance|συνδιακύμανση]], χρησιμοποιείται συχνά στην θεωρητική στατιστική * εντούτοις, η αναμενόμενη απόλυτη απόκλιση τείνει να είναι πιο[[ ανθεκτική]] , καθώς είναι λιγότερο ευαίσθητη σε [[έκτοπες παρατηρήσεις]] που προκύπτουν από τα [[σφάλματα μετρήσεων]] ή μία [[υπερβολικά ασύμμετρη κατανομή]].
 
== Προσέγγιση της διακύμανσης μιας συνάρτησης ==
Γραμμή 222:
Πραγματικές παρατηρήσεις όπως οι μετρήσεις από τη χθεσινή βροχή καθ'όλη τη διάρκεια της ημέρας τυπικά δεν μπορούν να είναι πλήρη σύνολα όλων των πιθανών παρατηρήσεων που θα μπορούσαν να γίνουν. Οπότε, η διακύμανση που υπολογίζεται από το πεπερασμένο σύνολο γενικά δεν θα ταιριάζει με τη διακύμανση που θα υπολογιζόταν από το συνολικό πλήθος των πιθανών παρατηρήσεων. Αυτό σημαίνει ότι εκτιμάται η μέση τιμή και η διακύμανση που θα είχαν υπολογιστεί από ένα πλήρες σύνολο παρατηρήσεων με τη χρήση μιας [[εκτιμήτριας συνάρτησης]]. Ο εκτιμητής είναι μια συνάρτηση από το [[Στατιστικό δείγμα|δείγμα]] των ''n'' [[Παρατήρηση|παρατηρήσεων]] η οποία σχεδιάζεται αμερόληπτα  από το σύνολο του [[Πληθυσμός|πληθυσμού]] των πιθανών παρατηρήσεων. Σε αυτό το παράδειγμα,αυτό το δείγμα θα ήταν το σύνολο των πραγματικών μετρήσεων της χθεσινής βροχόπτωσης από τις διαθέσιμες μετρήσεις βροχής εντός της γεωγραφικής περιοχής που ενδιαφέρει.
 
Ο πιο απλός εκτιμητής για την μέση τιμή του πληθυσμού και τη διακύμανση του πληθυσμού είναι απλά η μέση τιμή και η διακύμανση του δείγματος, η '''μέση τιμή δείγματος''' και '''(μη διορθωμένη) διακύμανση του δείγματος''' – αυτά είναι [[:en:Consistent_estimator|συνεπείς εκτιμητές]] (που συγκλίνουν στη σωστή τιμή καθώς ο αριθμός των δειγμάτων αυξάνει), αλλά μπορεί να βελτιωθεί. Η εκτίμηση της διακύμανσης του πληθυσμού παίρνοντας τη διακύμανση του δείγματος είναι κοντά στην επιθυμητή, σε γενικές γραμμές, αλλά μπορεί να βελτιωθεί με δύο τρόπους. Πιο απλά, η διακύμανση του δείγματος υπολογίζεται ως μέσος όρος των [[:en:Squared_deviations|τετραγωνικών αποκλίσεων]] σχετικά με τη μέση τιμή (του δείγματος), διαιρώντας με το ''π.δ.'' Ωστόσο, χρησιμοποιώντας τιμές διαφορετικές από το ''n'' βελτιώνεται ο εκτιμητής με διάφορους τρόπους. Τέσσερις κοινές τιμές για τον παρονομαστής είναι ''n,'' ''n''&#x20;−&#x20;1, ''n''&#x20;+&#x20;1 και ''n''&#x20;−&#x20;1.5: ''n'' είναι ο απλούστερος (διακύμανση του πληθυσμού του δείγματος), ''n''&#x20;−&#x20;1 μειώνει την μεροληψία, ''n''&#x20;+&#x20;1 ελαχιστοποιεί το [[:en:Mean_squared_error|μέσο τετραγωνικό σφάλματο]] για την κανονική κατανομή, και ''n''&#x20;−&#x20;1.5 κυρίως μειώνει την μεροληψία σε [[:en:Unbiased_estimation_of_standard_deviation|αμερόληπτη εκτίμηση της τυπικής απόκλισης]] της κανονικής κατανομής.
 
Πρώτον, αν και η πραγματική μέση τιμή είναι άγνωστη (και υπολογίζεται ως η μέση τιμή δείγματος), τότε η διακύμανση του δείγματος είναι [[μεροληπτικός εκτιμητής]]: υποτιμά τη διακύμανση κατά ένα παράγοντα (''n''&#x20;−&#x20;1) / ''n'' * η διόρθωση από αυτόν τον παράγοντα (διαίρεση με ''n''&#x20;−&#x20;1 αντί για ''n'') ονομάζεται [[Διόρθωση Bessel|διόρθωση Bessel]]. Ο εκτιμητής που προκύπτει είναι αμερόληπτος, και καλείται η '''(διορθωμένη) διακύμανση του δείγματος''' ή '''αμερόληπτη διακύμανση του δείγματος'''. Για παράδειγμα, όταν ''n''&#x20;=&#x20;1 η διακύμανση της μια μόνο παρατήρηση για τη μέση τιμή του δείγματος  (από μόνη της), είναι προφανώς μηδέν, ανεξάρτητα από τη διακύμανση του πληθυσμού. Αν η μέση καθορίζεται με κάποιο άλλο τρόπο από ό,τι από τα ίδια δείγματα που χρησιμοποιούνται για την εκτίμηση της διακύμανσης τότε αυτή η μεροληψία δεν τίθεται και η διακύμανση μπορεί με ασφάλεια να εκτιμηθεί όπως αυτή από τα δείγματα για την (ανεξάρτητα γνωστή) μέση τιμή.
 
Δεύτερον, η διακύμανση του δείγματος, γενικώς, δεν ελαχιστοποιεί το [[:en:Mean_squared_error|μέσο τετραγωνικό σφάλμα]] μεταξύ της διακύμανσης του δείγματος και της διακύμανσης του πληθυσμού. Η διόρθωση της μεροληψίας συχνά κάνει τα πράγματα χειρότερα.: μπορείτε πάντα να επιλέξετε ένα συντελεστή κλίμακας που αποδίδει καλύτερα από τη διορθωμένη διακύμανση του δείγματος, αν και η βέλτιστη παράγοντας κλίμακας εξαρτάται από την [[:en:Excess_kurtosis|υπερβολική κύρτωση]] του πληθυσμού (βλ [[:en:Mean_squared_error#Variance|μέσο τετραγωνικό σφάλμα: διακύμανση]]), και εισάγει μεροληψία. Αυτό αποτελείται από μείωση του αμερόληπτου εκτιμητή (διαιρώντας με έναν αριθμό μεγαλύτερο από ''n''&#x20;−&#x20;1), και είναι ένα απλό παράδειγμα από μια [[:en:Shrinkage_estimator|συρρίκνωση εκτιμητή]]: "συρρικνώνει" τον αμερόληπτο εκτιμητή προς το μηδέν. Για την κανονική κατανομή, διαιρώντας με ''n''&#x20;+&#x20;1 (αντί για ''n''&#x20;−&#x20;1 ή ''n'') ελαχιστοποιεί το μέσο τετραγωνικό σφάλμα. Ο εκτιμητής που προκύπτει είναι μεροληπτικός, ωστόσο, και είναι γνωστό ως '''μεροληπτική διακύμανση του δείγματος'''.
 
=== Διακύμανση του πληθυσμού ===
Γραμμή 234:
: <math />
είναι η μέση τιμή του πληθυσμού. Η διακύμανση του πληθυσμού, συνεπώς, ταιριάζει με την διακύμανση της κατανομής πιθανότητας. Με αυτή την έννοια, η έννοια του πληθυσμού μπορεί να επεκταθεί σε συνεχείς τυχαίες μεταβλητές με άπειρους πληθυσμούς.
 
=== Διακύμανση του δείγματος ===
Σε πολλές πρακτικές περιπτώσεις, η πραγματική διακύμανση του πληθυσμού δεν είναι γνωστή ''εκ των προτέρων'' και πρέπει να υπολογίστεί με κάποιο τρόπο. Όταν έχουμε να κάνουμε με εξαιρετικά μεγάλους πληθυσμούς, δεν είναι δυνατό να μετρούν κάθε αντικείμενο στον πληθυσμό, οπότε ο υπολογισμός πρέπει να γίνεται σε ένα [[Στατιστικό δείγμα|δείγμα]] του πληθυσμού.<ref>Navidi, William (2006) ''Statistics for Engineers and Scientists'', McGraw-Hill, pg 14.</ref> Η διακύμανση του Δείγματος μπορεί επίσης να εφαρμοστεί για τον υπολογισμό της διακύμανσης  μια συνεχής κατανομής από ένα δείγμα αυτής της κατανομής.
 
Παίρνουμε ένα [[Στατιστικό δείγμα|δείγμα με αντικατάσταση]] των ''n'' τιμών ''y''<sub>1</sub>,&#x20;...,&#x20;''y''<sub>''n''</sub> από τον πληθυσμό, όπου ''n''&#x20;<&#x20;''N'', και υπολογίζουμε τη διακύμανση με βάση αυτό το δείγμα.<ref>Montgomery, D. C. and Runger, G. C. (1994) ''Applied statistics and probability for engineers'', page 201. </ref> Απευθείας παίρνοντας τη διακύμανση των δεδομένων του δείγματος δίνει το μέσο όρο των [[:en:Squared_deviations|τετραγωνικών αποκλίσεων]]:
: <math />
Εδώ, <math /> δηλώνει τη [[:en:Sample_mean|μέση τιμή δείγματος]]:
: <math />
Αφού τα yi δεν έχουν επιλεγεί τυχαία, και το <math /> και το <math /> είναι τυχαίες μεταβλητές. Οι αναμενόμενες τιμές τους μπορούν να υπολογιστούν αθροίζοντας το σύνολο όλων των δυνατών δειγμάτων {''yi''<sub>'' ''</sub>} από τον πληθυσμό. Για <math /> αυτό δίνει:
: <math>
\begin{align}
E[\sigma_y^2]
& = E\left[ \frac 1n \sum_{i=1}^n \left(y_i - \frac 1n \sum_{j=1}^n y_j \right)^2 \right] \\
& = \frac 1n \sum_{i=1}^n E\left[ y_i^2 - \frac 2n y_i \sum_{j=1}^n y_j + \frac{1}{n^2} \sum_{j=1}^n y_j \sum_{k=1}^n y_k \right] \\
& = \frac 1n \sum_{i=1}^n \left[ \frac{n-2}{n} E[y_i^2] - \frac 2n \sum_{j \neq i} E[y_i y_j] + \frac{1}{n^2} \sum_{j=1}^n \sum_{k \neq j}^n E[y_j y_k] +\frac{1}{n^2} \sum_{j=1}^n E[y_j^2] \right] \\
& = \frac 1n \sum_{i=1}^n \left[ \frac{n-2}{n} (\sigma^2+\mu^2) - \frac 2n (n-1) \mu^2 + \frac{1}{n^2} n (n-1) \mu^2 + \frac 1n (\sigma^2+\mu^2) \right] \\
& = \frac{n-1}{n} \sigma^2.
\end{align}
</math>
Ως εκ τούτου, <math /> δίνει μια εκτίμηση της διακύμανσης του πληθυσμού,  που είναι μεροληπτική από έναν παράγοντα <math />. Για το λόγο αυτό, <math /> αναφέρεται ως ''μεροληπτική διακύμανση του δείγματος''. Διόρθωση για αυτή την μεροληψία δίνεται από την ''αμερόληπτη διακύμανση του δείγματος'':
: <math />
Είτε ο εκτιμητής μπορεί να αναφέρεται απλά ως η ''διακύμανση του δείγματος'' , όταν η έκδοχη μπορεί να καθοριστεί από το γενικό πλαίσιο. Την ίδια απόδειξη μπορεί να εφαρμοστεί και για τα δείγματα που λαμβάνονται από μια συνεχή κατανομή πιθανότητας.
 
Η χρήση του όρου ''n''&#x20;−&#x20;1 ονομάζεται [[:en:Bessel's_correction|Bessel διόρθωση]], και χρησιμοποιείται επίσης στη [[:en:Sample_covariance|συνδιακύμανση του δείγματος]] και την [[Τυπική απόκλιση|τυπική απόκλιση του δείγματος]] (η τετραγωνική ρίζα της διακύμανσης). Η τετραγωνική ρίζα είναι μια [[:en:Concave_function|κοίλη συνάρτηση]] και, συνεπώς, εισάγει μια αρνητική μεροληψία (από την [[:en:Jensen's_inequality|ανισότητα Jensen]]), η οποία εξαρτάται από την κατανομή, και κατά συνέπεια η διορθωμένη τυπική απόκλιση του δείγματος (χρησιμοποιώντας Bessel διόρθωση) είναι μεροληπτική. Η [[:en:Unbiased_estimation_of_standard_deviation|αμερόληπτη εκτίμηση της τυπικής απόκλισης]] είναι τεχνικά πρόβλημα που περιλαμβάνεται, αν και για την κανονική κατανομή, χρησιμοποιώντας τον όρο ''n''&#x20;−&#x20;1.5 αποδίδεται σχεδόν αμερόληπτος εκτιμητής.
 
Η αμερόληπτη διακύμανση του δείγματος είναι μια [[:en:U-statistic|U-statistic]] για τη συνάρτηση ''ƒ''(''y''<sub>1</sub>,&#x20;''y''<sub>2</sub>) =&#x20;(''y''<sub>1</sub>&#x20;−&#x20;''y''<sub>2</sub>)<sup>2</sup>/2, με την έννοια ότι λαμβάνεται από το μέσο όρο ενός στατιστικού 2 δειγμάτων  από υποσύνολα 2-στοιχείων του πληθυσμού.
 
== See also ==