Διαφορά μεταξύ των αναθεωρήσεων του «Διακύμανση»

καμία σύνοψη επεξεργασίας
(Δημιουργήθηκε από μετάφραση της σελίδας "Variance")
{{μετάφραση}}{{επιμέλεια|αυτόματη μετάφραση}}Στη [[θεωρία πιθανοτήτων]] και τη [[στατιστική]],η '''διακύμανση''' είναι η [[αναμενόμενη τιμή]] της τετραγωνικής απόκλισης της [[Τυχαία μεταβλητή|τυχαίας μεταβλητής]] από τη [[μέση τιμή]], και άτυπα μετρά πόσο μακριά ένα σύνολο (τυχαίων) αριθμών απλώνεται από τη μέση τιμή του. Η διακύμανση έχει κεντρικό ρόλο στη στατιστική. Χρησιμοποιείται στην [[περιγραφική στατιστική]], [[Στατιστική συμπερασματολογία]], [[έλεγχο υποθέσεων]],[[έλεγχο καλής προσαρμογής]], [[Monte Carlo (μέθοδος)|Μόντε Κάρλο δειγματοληψίας]], μεταξύ πολλών άλλων. Αυτό την καθιστά μία κεντρική ποσότητα σε πολλά πεδία όπως η [[Φυσική]], [[Βιολογία]], [[Χημεία]], [[Οικονομικά]], και [[Χρηματοοικονομικά]]. Η διακύμανση είναι το τετράγωνο της τυπικής απόκλισης, η δεύτερη [[κεντρική ροπή]] της κατανομής, και η [[συνδιασπορά]] της τυχαίας μεταβλητής με τον εαυτό της, και συχνά συμβολίζεται σ² ή Var(X).<span class="cx-segment" data-segmentid="25"></span>
 
== Ορισμός ==
 
=== Κατανομή Πουασσόν ===
Η [[κατανομή Πουασσόν]] με παράμετρο λ είναι μια διακριτή κατανομή για ''k'' = 0, 1, 2, ... Η [[:en:Probability_mass_function|συνάρτηση μάζας πιθανότητας]] δίνεται από τον τύπο:
: <math>p(k) = \frac{\lambda^k}{k!} e^{-\lambda},</math>
και έχει αναμενόμενη τιμή μ = λ. Η διακύμανση είναι ίση με:
 
=== Διωνυμική κατανομή ===
Η [[διωνυμική κατανομή]] με παραμέτρους ''n'' και ''p'' είναι μια διακριτή κατανομή για ''k'' = 0, 1, 2, ..., ''n''. Η [[:en:Probability_mass_function|συνάρτηση μάζας πιθανότητας]] δίνεται από τον τύπο:
: <math>p(k) = {n\choose k}p^k(1-p)^{n-k},</math>
και έχει αναμενόμενη τιμή μ = ''np''. Η διακύμανση είναι ίση με:
Ένας λόγος για να προτιμηθεί η χρήση της διακύμανσης από άλλα μέτρα διασποράς είναι ότι η διακύμανση του αθροίσματος (ή της διαφοράς) [[ασυσχέτιστων]] μεταβλητών είναι το άθροισμα των διακυμάνσεών τους:
: <math>\operatorname{Var}\left(\sum_{i=1}^n X_i\right) = \sum_{i=1}^n \operatorname{Var}(X_i).</math>
Αυτή η πρόταση ονομάζεται τύπος [[:en:Irénée-Jules_Bienaymé|Bienaymé]] <ref>Loeve, M. (1977) "Probability Theory", ''Graduate Texts in Mathematics'', Volume 45, 4th edition, Springer-Verlag, p.&nbsp;12.</ref> και ανακαλύφθηκε το 1853.<sup class="noprint Inline-Template Template-Fact" style="white-space:nowrap;" contenteditable="false">&#x5B;''<span title="This claim needs references to reliable sources. (February 2013)">citation needed</span>''&#x5D;</sup> Γίνεται συχνά με τηνισχυρότερη προϋπόθεση ότι οι μεταβλητές είναι ανεξάρτητες,αλλά και να είναι ασυσχέτιστες είναι επαρκές.Έτσι, αν όλες οι μεταβλητές έχουν την ίδια διακύμανση σ<sup>2</sup>,τότε , δεδομένου ότι η διαίρεση με το ''n'' είναι ένας γραμμικός μετασχηματισμός , ο τύπος αυτός συνεπάγεται αμέσως ότι η διακύμανση της μέσης τιμής τους, είναι
: <math>\operatorname{Var}\left(\overline{X}\right) = \operatorname{Var}\left(\frac {1} {n}\sum_{i=1}^n X_i\right) = \frac {1} {n^2}\sum_{i=1}^n \operatorname{Var}\left(X_i\right) = \frac {\sigma^2} {n}.</math>
Δηλαδή, η διακύμανση της μέσης τιμής μειώνεται όταν το ''n  ''αυξάνεται . Αυτός ο τύπος για τη διακύμανση της μέσης τιμής χρησιμοποιείται στον ορισμό του βασικού σφάλματος της μέσης τιμής του δείγματος , το οποίο χρησιμοποιείται στο [[Θεώρημα κεντρικού ορίου|κεντρικό οριακο θεώρημα.]] <span class="cx-segment" data-segmentid="304"></span>
 
=== Μονάδες μέτρησης ===
Σε αντίθεση με την αναμενόμενη απόλυτη απόκλιση, η διακύμανση μιας μεταβλητής έχει μονάδες που είναι το τετράγωνο από τις μονάδες της μεταβλητής. Για παράδειγμα, μια μεταβλητή που μετράται σε μέτρα θα έχει μια απόκλιση που μετράται σε μέτρα στο τετράγωνο. Για το λόγο αυτό, η περιγραφή των συνόλων δεδομένων μέσω της [[:en:Standard_deviation|τυπικής απόκλισης]] ή της [[Ρίζας μέσης τετραγωνικής απόκλισης|ρίζας μέσης τετραγωνικής απόκλισης]] συχνά προτιμάται σε σχέση με τη διακύμανση. Στο παράδειγμα με τα ζάρια, η τυπική απόκλιση √2.9&#x20;≈&#x20;1.7, ελαφρώς μεγαλύτερο από την αναμενόμενη απόλυτη απόκλιση&#x20;1.5.
 
Η τυπική απόκλιση και η αναμενόμενη απόλυτη απόκλιση μπορούν να χρησιμοποιηθούν ως δείκτης της "εξάπλωσης" της κατανομής. Η τυπική απόκλιση είναι πιο δεκτική στην αλγεβρική χειραγώγηση από την αναμενόμενη απόλυτη απόκλιση, και, μαζί με τη διακύμανση και τη γενίκευση [[:en:Covariance|συνδιακύμανση]], χρησιμοποιείται συχνά στην θεωρητική στατιστική * εντούτοις, η αναμενόμενη απόλυτη απόκλιση τείνει να είναι πιο[[ ανθεκτική]] , καθώς είναι λιγότερο ευαίσθητη σε [[έκτοπες παρατηρήσεις]] που προκύπτουν από τα [[σφάλματα μετρήσεων]] ή μία [[υπερβολικά ασύμμετρη κατανομή]].
 
== Προσέγγιση της διακύμανσης μιας συνάρτησης ==
Πραγματικές παρατηρήσεις όπως οι μετρήσεις από τη χθεσινή βροχή καθ'όλη τη διάρκεια της ημέρας τυπικά δεν μπορούν να είναι πλήρη σύνολα όλων των πιθανών παρατηρήσεων που θα μπορούσαν να γίνουν. Οπότε, η διακύμανση που υπολογίζεται από το πεπερασμένο σύνολο γενικά δεν θα ταιριάζει με τη διακύμανση που θα υπολογιζόταν από το συνολικό πλήθος των πιθανών παρατηρήσεων. Αυτό σημαίνει ότι εκτιμάται η μέση τιμή και η διακύμανση που θα είχαν υπολογιστεί από ένα πλήρες σύνολο παρατηρήσεων με τη χρήση μιας [[εκτιμήτριας συνάρτησης]]. Ο εκτιμητής είναι μια συνάρτηση από το [[Στατιστικό δείγμα|δείγμα]] των ''n'' [[Παρατήρηση|παρατηρήσεων]] η οποία σχεδιάζεται αμερόληπτα  από το σύνολο του [[Πληθυσμός|πληθυσμού]] των πιθανών παρατηρήσεων. Σε αυτό το παράδειγμα,αυτό το δείγμα θα ήταν το σύνολο των πραγματικών μετρήσεων της χθεσινής βροχόπτωσης από τις διαθέσιμες μετρήσεις βροχής εντός της γεωγραφικής περιοχής που ενδιαφέρει.
 
Ο πιο απλός εκτιμητής για την μέση τιμή του πληθυσμού και τη διακύμανση του πληθυσμού είναι απλά η μέση τιμή και η διακύμανση του δείγματος, η '''μέση τιμή δείγματος''' και '''(μη διορθωμένη) διακύμανση του δείγματος''' – αυτά είναι [[:en:Consistent_estimator|συνεπείς εκτιμητές]] (που συγκλίνουν στη σωστή τιμή καθώς ο αριθμός των δειγμάτων αυξάνει), αλλά μπορεί να βελτιωθεί. Η εκτίμηση της διακύμανσης του πληθυσμού παίρνοντας τη διακύμανση του δείγματος είναι κοντά στην επιθυμητή, σε γενικές γραμμές, αλλά μπορεί να βελτιωθεί με δύο τρόπους. Πιο απλά, η διακύμανση του δείγματος υπολογίζεται ως μέσος όρος των [[:en:Squared_deviations|τετραγωνικών αποκλίσεων]] σχετικά με τη μέση τιμή (του δείγματος), διαιρώντας με το ''π.δ.'' Ωστόσο, χρησιμοποιώντας τιμές διαφορετικές από το ''n'' βελτιώνεται ο εκτιμητής με διάφορους τρόπους. Τέσσερις κοινές τιμές για τον παρονομαστής είναι ''n,'' ''n''&#x20;−&#x20;1, ''n''&#x20;+&#x20;1 και ''n''&#x20;−&#x20;1.5: ''n'' είναι ο απλούστερος (διακύμανση του πληθυσμού του δείγματος), ''n''&#x20;−&#x20;1 μειώνει την μεροληψία, ''n''&#x20;+&#x20;1 ελαχιστοποιεί το [[:en:Mean_squared_error|μέσο τετραγωνικό σφάλματοσφάλμα]] για την κανονική κατανομή, και ''n''&#x20;−&#x20;1.5 κυρίως μειώνει την μεροληψία σε [[:en:Unbiased_estimation_of_standard_deviation|αμερόληπτη εκτίμηση της τυπικής απόκλισης]] της κανονικής κατανομής.
 
Πρώτον, αν και η πραγματική μέση τιμή είναι άγνωστη (και υπολογίζεται ως η μέση τιμή δείγματος), τότε η διακύμανση του δείγματος είναι [[μεροληπτικός εκτιμητής]]: υποτιμά τη διακύμανση κατά ένα παράγοντα (''n''&#x20;−&#x20;1) / ''n'' * η διόρθωση από αυτόν τον παράγοντα (διαίρεση με ''n''&#x20;−&#x20;1 αντί για ''n'') ονομάζεται [[Διόρθωση Bessel|διόρθωση Bessel]]. Ο εκτιμητής που προκύπτει είναι αμερόληπτος, και καλείται η '''(διορθωμένη) διακύμανση του δείγματος''' ή '''αμερόληπτη διακύμανση του δείγματος'''. Για παράδειγμα, όταν ''n''&#x20;=&#x20;1 η διακύμανση της μια μόνο παρατήρηση για τη μέση τιμή του δείγματος  (από μόνη της), είναι προφανώς μηδέν, ανεξάρτητα από τη διακύμανση του πληθυσμού. Αν η μέση καθορίζεται με κάποιο άλλο τρόπο από ό,τι από τα ίδια δείγματα που χρησιμοποιούνται για την εκτίμηση της διακύμανσης τότε αυτή η μεροληψία δεν τίθεται και η διακύμανση μπορεί με ασφάλεια να εκτιμηθεί όπως αυτή από τα δείγματα για την (ανεξάρτητα γνωστή) μέση τιμή.
 
Δεύτερον, η διακύμανση του δείγματος, γενικώς, δεν ελαχιστοποιεί το [[:en:Mean_squared_error|μέσο τετραγωνικό σφάλμα]] μεταξύ της διακύμανσης του δείγματος και της διακύμανσης του πληθυσμού. Η διόρθωση της μεροληψίας συχνά κάνει τα πράγματα χειρότερα.: μπορείτε πάντα να επιλέξετε ένα συντελεστή κλίμακας που αποδίδει καλύτερα από τη διορθωμένη διακύμανση του δείγματος, αν και η βέλτιστη παράγοντας κλίμακας εξαρτάται από την [[:en:Excess_kurtosis|υπερβολική κύρτωση]] του πληθυσμού (βλ [[:en:Mean_squared_error#Variance|μέσο τετραγωνικό σφάλμα: διακύμανση]]), και εισάγει μεροληψία. Αυτό αποτελείται από μείωση του αμερόληπτου εκτιμητή (διαιρώντας με έναν αριθμό μεγαλύτερο από ''n''&#x20;−&#x20;1), και είναι ένα απλό παράδειγμα από μια [[:en:Shrinkage_estimator|συρρίκνωση εκτιμητή]]: "συρρικνώνει" τον αμερόληπτο εκτιμητή προς το μηδέν. Για την κανονική κατανομή, διαιρώντας με ''n''&#x20;+&#x20;1 (αντί για ''n''&#x20;−&#x20;1 ή ''n'') ελαχιστοποιεί το μέσο τετραγωνικό σφάλμα. Ο εκτιμητής που προκύπτει είναι μεροληπτικός, ωστόσο, και είναι γνωστό ως '''μεροληπτική διακύμανση του δείγματος'''.
 
=== Διακύμανση του πληθυσμού ===
Σε πολλές πρακτικές περιπτώσεις, η πραγματική διακύμανση του πληθυσμού δεν είναι γνωστή ''εκ των προτέρων'' και πρέπει να υπολογίστεί με κάποιο τρόπο. Όταν έχουμε να κάνουμε με εξαιρετικά μεγάλους πληθυσμούς, δεν είναι δυνατό να μετρούν κάθε αντικείμενο στον πληθυσμό, οπότε ο υπολογισμός πρέπει να γίνεται σε ένα [[Στατιστικό δείγμα|δείγμα]] του πληθυσμού.<ref>Navidi, William (2006) ''Statistics for Engineers and Scientists'', McGraw-Hill, pg 14.</ref> Η διακύμανση του Δείγματος μπορεί επίσης να εφαρμοστεί για τον υπολογισμό της διακύμανσης  μια συνεχής κατανομής από ένα δείγμα αυτής της κατανομής.
 
Παίρνουμε ένα [[Στατιστικό δείγμα|δείγμα με αντικατάσταση]] των ''n'' τιμών ''y''<sub>1</sub>,&#x20;...,&#x20;''y''<sub>''n''</sub> από τον πληθυσμό, όπου ''n''&#x20;<&#x20;''N'', και υπολογίζουμε τη διακύμανση με βάση αυτό το δείγμα.<ref>Montgomery, D. C. and Runger, G. C. (1994) ''Applied statistics and probability for engineers'', page 201. </ref> Απευθείας παίρνοντας τη διακύμανση των δεδομένων του δείγματος δίνει το μέσο όρο των [[:en:Squared_deviations|τετραγωνικών αποκλίσεων]]:
: <math />
Εδώ, <math /> δηλώνει τη [[:en:Sample_mean|μέση τιμή δείγματος]]:
: <math />
Αφού τα yi δεν έχουν επιλεγεί τυχαία, και το <math /> και το <math /> είναι τυχαίες μεταβλητές. Οι αναμενόμενες τιμές τους μπορούν να υπολογιστούν αθροίζοντας το σύνολο όλων των δυνατών δειγμάτων {''yi''<sub>'' ''</sub>} από τον πληθυσμό. Για <math /> αυτό δίνει:
\end{align}
</math>
Ως εκ τούτου, <math /> δίνει μια εκτίμηση της διακύμανσης του πληθυσμού,  που είναι μεροληπτική από έναν παράγοντα <math />. Για το λόγο αυτό, <math /> αναφέρεται ως ''μεροληπτική διακύμανση του δείγματος''. Διόρθωση για αυτή την μεροληψία δίνεται από την ''αμερόληπτη διακύμανση του δείγματος'':
: <math />
Είτε ο εκτιμητής μπορεί να αναφέρεται απλά ως η ''διακύμανση του δείγματος'' , όταν η έκδοχη μπορεί να καθοριστεί από το γενικό πλαίσιο. Την ίδια απόδειξη μπορεί να εφαρμοστεί και για τα δείγματα που λαμβάνονται από μια συνεχή κατανομή πιθανότητας.
 
Η χρήση του όρου ''n''&#x20;−&#x20;1 ονομάζεται [[:en:Bessel's_correction|Bessel διόρθωση]], και χρησιμοποιείται επίσης στη [[:en:Sample_covariance|συνδιακύμανση του δείγματος]] και την [[Τυπική απόκλιση|τυπική απόκλιση του δείγματος]] (η τετραγωνική ρίζα της διακύμανσης). Η τετραγωνική ρίζα είναι μια [[:en:Concave_function|κοίλη συνάρτηση]] και, συνεπώς, εισάγει μια αρνητική μεροληψία (από την [[:en:Jensen's_inequality|ανισότητα Jensen]]), η οποία εξαρτάται από την κατανομή, και κατά συνέπεια η διορθωμένη τυπική απόκλιση του δείγματος (χρησιμοποιώντας Bessel διόρθωση) είναι μεροληπτική. Η [[:en:Unbiased_estimation_of_standard_deviation|αμερόληπτη εκτίμηση της τυπικής απόκλισης]] είναι τεχνικά πρόβλημα που περιλαμβάνεται, αν και για την κανονική κατανομή, χρησιμοποιώντας τον όρο ''n''&#x20;−&#x20;1.5 αποδίδεται σχεδόν αμερόληπτος εκτιμητής.
 
Η αμερόληπτη διακύμανση του δείγματος είναι μια [[:en:U-statistic|U-statistic]] για τη συνάρτηση ''ƒ''(''y''<sub>1</sub>,&#x20;''y''<sub>2</sub>) =&#x20;(''y''<sub>1</sub>&#x20;−&#x20;''y''<sub>2</sub>)<sup>2</sup>/2, με την έννοια ότι λαμβάνεται από το μέσο όρο ενός στατιστικού 2 δειγμάτων  από υποσύνολα 2-στοιχείων του πληθυσμού.
 
=== Κατανομή της διακύμανση του δείγματος ===
Αν το <span>''yι'' </span> δεν είναι ανεξάρτητες και ισόνομα κατανεμημένες, αλλά όχι απαραίτητα κανονικά κατανεμημένες, τότε<ref>Neter, Wasserman, and Kutner (1990) ''Applied Linear Statistical Models'', 3rd edition, pp. 622-623 <sup class="noprint Inline-Template " style="white-space:nowrap;">&#x5B;''[[Βικιπαίδεια:Παράθεση πηγών|<span title="A more detailed citation is required. (March 2013)">full citation needed</span>]]''&#x5D;</sup></ref>
: <math />
όπου ''κ'' είναι η [[:en:Kurtosis|κύρτωση]] της κατανομής και ''μ<sub>4</sub>'' είναι η τέταρτη [[κεντρική ροπή]].
 
Αν οι συνθήκες από το [[Νόμος των μεγάλων αριθμών|νόμο των μεγάλων αριθμών]] ικανοποιούνται για το τετράγωνο των παρατηρήσεων, ''s''<sup>2</sup> είναι [[:en:Consistent_estimator|συνεπής εκτιμητής]] του&#x20;''σ''<sup>2</sup>. Μπορεί , πράγματι, να δει κανείς ότι η διακύμανση του εκτιμητή τείνει ασυμπτωτικά στο μηδέν.
 
== See also ==
511

επεξεργασίες