Διαφορά μεταξύ των αναθεωρήσεων του «Διακύμανση»

καμία σύνοψη επεξεργασίας
(Δημιουργήθηκε από μετάφραση της σελίδας "Variance")
 
=== Κατανομή Πουασσόν ===
Η [[κατανομή Πουασσόν]] με παράμετρο λ είναι μια διακριτή κατανομή για ''k'' = 0, 1, 2, ... Η [[:en:Probability_mass_function|συνάρτηση μάζας πιθανότητας]] δίνεται από τον τύπο:
: <math>p(k) = \frac{\lambda^k}{k!} e^{-\lambda},</math>
και έχει αναμενόμενη τιμή μ = λ. Η διακύμανση είναι ίση με:
 
=== Διωνυμική κατανομή ===
Η [[διωνυμική κατανομή]] με παραμέτρους ''n'' και ''p'' είναι μια διακριτή κατανομή για ''k'' = 0, 1, 2, ..., ''n''. Η [[:en:Probability_mass_function|συνάρτηση μάζας πιθανότητας]] δίνεται από τον τύπο:
: <math>p(k) = {n\choose k}p^k(1-p)^{n-k},</math>
και έχει αναμενόμενη τιμή μ = ''np''. Η διακύμανση είναι ίση με:
Ένας λόγος για να προτιμηθεί η χρήση της διακύμανσης από άλλα μέτρα διασποράς είναι ότι η διακύμανση του αθροίσματος (ή της διαφοράς) [[ασυσχέτιστων]] μεταβλητών είναι το άθροισμα των διακυμάνσεών τους:
: <math>\operatorname{Var}\left(\sum_{i=1}^n X_i\right) = \sum_{i=1}^n \operatorname{Var}(X_i).</math>
Αυτή η πρόταση ονομάζεται τύπος [[:en:Irénée-Jules_Bienaymé|Bienaymé]] <ref>Loeve, M. (1977) "Probability Theory", ''Graduate Texts in Mathematics'', Volume 45, 4th edition, Springer-Verlag, p.&nbsp;12.</ref> και ανακαλύφθηκε το 1853.<sup class="noprint Inline-Template Template-Fact" style="white-space:nowrap;" contenteditable="false">&#x5B;''<span title="This claim needs references to reliable sources. (February 2013)">citation needed</span>''&#x5D;</sup> Γίνεται συχνά με τηνισχυρότερη προϋπόθεση ότι οι μεταβλητές είναι ανεξάρτητες,αλλά και να είναι ασυσχέτιστες είναι επαρκές.Έτσι, αν όλες οι μεταβλητές έχουν την ίδια διακύμανση σ<sup>2</sup>,τότε , δεδομένου ότι η διαίρεση με το ''n'' είναι ένας γραμμικός μετασχηματισμός , ο τύπος αυτός συνεπάγεται αμέσως ότι η διακύμανση της μέσης τιμής τους, είναι
: <math>\operatorname{Var}\left(\overline{X}\right) = \operatorname{Var}\left(\frac {1} {n}\sum_{i=1}^n X_i\right) = \frac {1} {n^2}\sum_{i=1}^n \operatorname{Var}\left(X_i\right) = \frac {\sigma^2} {n}.</math>
Δηλαδή, η διακύμανση της μέσης τιμής μειώνεται όταν το ''n  ''αυξάνεται . Αυτός ο τύπος για τη διακύμανση της μέσης τιμής χρησιμοποιείται στον ορισμό του βασικού σφάλματος της μέσης τιμής του δείγματος , το οποίο χρησιμοποιείται στο [[Θεώρημα κεντρικού ορίου|κεντρικό οριακο θεώρημα.]] <span class="cx-segment" data-segmentid="304"></span>
 
=== Μονάδες μέτρησης ===
Σε αντίθεση με την αναμενόμενη απόλυτη απόκλιση, η διακύμανση μιας μεταβλητής έχει μονάδες που είναι το τετράγωνο από τις μονάδες της μεταβλητής. Για παράδειγμα, μια μεταβλητή που μετράται σε μέτρα θα έχει μια απόκλιση που μετράται σε μέτρα στο τετράγωνο. Για το λόγο αυτό, η περιγραφή των συνόλων δεδομένων μέσω της [[:en:Standard_deviation|τυπικής απόκλισης]] ή της [[Ρίζας μέσης τετραγωνικής απόκλισης|ρίζας μέσης τετραγωνικής απόκλισης]] συχνά προτιμάται σε σχέση με τη διακύμανση. Στο παράδειγμα με τα ζάρια, η τυπική απόκλιση √2.9&#x20;≈&#x20;1.7, ελαφρώς μεγαλύτερο από την αναμενόμενη απόλυτη απόκλιση&#x20;1.5.
 
Η τυπική απόκλιση και η αναμενόμενη απόλυτη απόκλιση μπορούν να χρησιμοποιηθούν ως δείκτης της "εξάπλωσης" της κατανομής. Η τυπική απόκλιση είναι πιο δεκτική στην αλγεβρική χειραγώγηση από την αναμενόμενη απόλυτη απόκλιση, και, μαζί με τη διακύμανση και τη γενίκευση [[:en:Covariance|συνδιακύμανση]], χρησιμοποιείται συχνά στην θεωρητική στατιστική * εντούτοις, η αναμενόμενη απόλυτη απόκλιση τείνει να είναι πιο[[ ανθεκτική]] , καθώς είναι λιγότερο ευαίσθητη σε [[έκτοπες παρατηρήσεις]] που προκύπτουν από τα [[σφάλματα μετρήσεων]] ή μία [[υπερβολικά ασύμμετρη κατανομή]].
 
== Προσέγγιση της διακύμανσης μιας συνάρτησης ==
Πραγματικές παρατηρήσεις όπως οι μετρήσεις από τη χθεσινή βροχή καθ'όλη τη διάρκεια της ημέρας τυπικά δεν μπορούν να είναι πλήρη σύνολα όλων των πιθανών παρατηρήσεων που θα μπορούσαν να γίνουν. Οπότε, η διακύμανση που υπολογίζεται από το πεπερασμένο σύνολο γενικά δεν θα ταιριάζει με τη διακύμανση που θα υπολογιζόταν από το συνολικό πλήθος των πιθανών παρατηρήσεων. Αυτό σημαίνει ότι εκτιμάται η μέση τιμή και η διακύμανση που θα είχαν υπολογιστεί από ένα πλήρες σύνολο παρατηρήσεων με τη χρήση μιας [[εκτιμήτριας συνάρτησης]]. Ο εκτιμητής είναι μια συνάρτηση από το [[Στατιστικό δείγμα|δείγμα]] των ''n'' [[Παρατήρηση|παρατηρήσεων]] η οποία σχεδιάζεται αμερόληπτα  από το σύνολο του [[Πληθυσμός|πληθυσμού]] των πιθανών παρατηρήσεων. Σε αυτό το παράδειγμα,αυτό το δείγμα θα ήταν το σύνολο των πραγματικών μετρήσεων της χθεσινής βροχόπτωσης από τις διαθέσιμες μετρήσεις βροχής εντός της γεωγραφικής περιοχής που ενδιαφέρει.
 
Ο πιο απλός εκτιμητής για την μέση τιμή του πληθυσμού και τη διακύμανση του πληθυσμού είναι απλά η μέση τιμή και η διακύμανση του δείγματος, η '''μέση τιμή δείγματος''' και '''(μη διορθωμένη) διακύμανση του δείγματος''' – αυτά είναι [[:en:Consistent_estimator|συνεπείς εκτιμητές]] (που συγκλίνουν στη σωστή τιμή καθώς ο αριθμός των δειγμάτων αυξάνει), αλλά μπορεί να βελτιωθεί. Η εκτίμηση της διακύμανσης του πληθυσμού παίρνοντας τη διακύμανση του δείγματος είναι κοντά στην επιθυμητή, σε γενικές γραμμές, αλλά μπορεί να βελτιωθεί με δύο τρόπους. Πιο απλά, η διακύμανση του δείγματος υπολογίζεται ως μέσος όρος των [[:en:Squared_deviations|τετραγωνικών αποκλίσεων]] σχετικά με τη μέση τιμή (του δείγματος), διαιρώντας με το ''π.δ.'' Ωστόσο, χρησιμοποιώντας τιμές διαφορετικές από το ''n'' βελτιώνεται ο εκτιμητής με διάφορους τρόπους. Τέσσερις κοινές τιμές για τον παρονομαστής είναι ''n,'' ''n''&#x20;−&#x20;1, ''n''&#x20;+&#x20;1 και ''n''&#x20;−&#x20;1.5: ''n'' είναι ο απλούστερος (διακύμανση του πληθυσμού του δείγματος), ''n''&#x20;−&#x20;1 μειώνει την μεροληψία, ''n''&#x20;+&#x20;1 ελαχιστοποιεί το [[:en:Mean_squared_error|μέσο τετραγωνικό σφάλματο]] για την κανονική κατανομή, και ''n''&#x20;−&#x20;1.5 κυρίως μειώνει την μεροληψία σε [[:en:Unbiased_estimation_of_standard_deviation|αμερόληπτη εκτίμηση της τυπικής απόκλισης]] της κανονικής κατανομής.
 
Πρώτον, αν και η πραγματική μέση τιμή είναι άγνωστη (και υπολογίζεται ως η μέση τιμή δείγματος), τότε η διακύμανση του δείγματος είναι [[μεροληπτικός εκτιμητής]]: υποτιμά τη διακύμανση κατά ένα παράγοντα (''n''&#x20;−&#x20;1) / ''n'' * η διόρθωση από αυτόν τον παράγοντα (διαίρεση με ''n''&#x20;−&#x20;1 αντί για ''n'') ονομάζεται [[Διόρθωση Bessel|διόρθωση Bessel]]. Ο εκτιμητής που προκύπτει είναι αμερόληπτος, και καλείται η '''(διορθωμένη) διακύμανση του δείγματος''' ή '''αμερόληπτη διακύμανση του δείγματος'''. Για παράδειγμα, όταν ''n''&#x20;=&#x20;1 η διακύμανση της μια μόνο παρατήρηση για τη μέση τιμή του δείγματος  (από μόνη της), είναι προφανώς μηδέν, ανεξάρτητα από τη διακύμανση του πληθυσμού. Αν η μέση καθορίζεται με κάποιο άλλο τρόπο από ό,τι από τα ίδια δείγματα που χρησιμοποιούνται για την εκτίμηση της διακύμανσης τότε αυτή η μεροληψία δεν τίθεται και η διακύμανση μπορεί με ασφάλεια να εκτιμηθεί όπως αυτή από τα δείγματα για την (ανεξάρτητα γνωστή) μέση τιμή.
 
Δεύτερον, η διακύμανση του δείγματος, γενικώς, δεν ελαχιστοποιεί το [[:en:Mean_squared_error|μέσο τετραγωνικό σφάλμα]] μεταξύ της διακύμανσης του δείγματος και της διακύμανσης του πληθυσμού. Η διόρθωση της μεροληψίας συχνά κάνει τα πράγματα χειρότερα.: μπορείτε πάντα να επιλέξετε ένα συντελεστή κλίμακας που αποδίδει καλύτερα από τη διορθωμένη διακύμανση του δείγματος, αν και η βέλτιστη παράγοντας κλίμακας εξαρτάται από την [[:en:Excess_kurtosis|υπερβολική κύρτωση]] του πληθυσμού (βλ [[:en:Mean_squared_error#Variance|μέσο τετραγωνικό σφάλμα: διακύμανση]]), και εισάγει μεροληψία. Αυτό αποτελείται από μείωση του αμερόληπτου εκτιμητή (διαιρώντας με έναν αριθμό μεγαλύτερο από ''n''&#x20;−&#x20;1), και είναι ένα απλό παράδειγμα από μια [[:en:Shrinkage_estimator|συρρίκνωση εκτιμητή]]: "συρρικνώνει" τον αμερόληπτο εκτιμητή προς το μηδέν. Για την κανονική κατανομή, διαιρώντας με ''n''&#x20;+&#x20;1 (αντί για ''n''&#x20;−&#x20;1 ή ''n'') ελαχιστοποιεί το μέσο τετραγωνικό σφάλμα. Ο εκτιμητής που προκύπτει είναι μεροληπτικός, ωστόσο, και είναι γνωστό ως '''μεροληπτική διακύμανση του δείγματος'''.
 
=== Διακύμανση του πληθυσμού ===
511

επεξεργασίες