Διαφορά μεταξύ των αναθεωρήσεων του «Κανονικοποίηση ποσοστημορίων»

μ
καμία σύνοψη επεξεργασίας
(Δημιουργήθηκε από μετάφραση της σελίδας "Quantile normalization")
 
μ
Στη στατιστική, η κανονικοποίηση ποσοστημορίων (quantile normalization ή quantile standardization) είναι μια τεχνική για το μετασχηματισμό δύο [[Κατανομή πιθανότητας|κατανομών]] ώστε να αποκτήσουν παρόμοιες στατιστικές ιδιότητες. Για να κανονικοποιήσουμε μια κατανομή βάσει αυτής της μεθόδου, ορίζουμε μια κατανομή αναφοράς (reference distribution) ίδιου μήκους και τις ταξινομούμε και τις δύο χωριστά. Τότε, η υψηλότερη τιμή της πρώτης κατανομής παίρνει την υψηλότερη τιμή της κατανομής αναφοράς, τη δεύτερη υψηλότερη τιμή της κατανομής αναφοράς, κοκ, μέχρις ότου η κατανομή που μας ενδιαφέρει να αποτελεί τελικά μια αναδιάταξη των στοιχείων της κατανομής αναφοράς.
 
 
<span class="cx-segment" data-segmentid="7"></span>Για να κανονικοποιήσουμε δύο ή περισσότερες κατανομές μεταξύ τους, χωρίς τη χρήση μιας κατανομής αναφοράς, ταξινομούμε όπως πριν, κι έπειτα θέτουμε το [[Μέσος όρος|μέσο όρο]] (συνήθως τον αριθμητικό μέσο όρο) των κατανομών. Έτσι, η υψηλότερη τιμή σε όλες τις κατανομές γίνεται ο μέσος όρος των υψηλότερων τιμών, η δεύτερη υψηλότερη γίνεται ο μέσος όρος των δεύτερων υψηλότερων, κοκ.
<span class="cx-segment" data-segmentid="12"></span>Στις περισσότερες περιπτώσεις, η κατανομή αναφοράς θα είναι μια συνήθης στατιστική κατανομή, όπως η [[Κανονική κατανομή|Κατανομή Gauss]] ή η [[Κατανομή Πουασσόν|κατανομή Poisson]]. Μπορεί επίσης να παραχθεί τυχαία ή να κατασκευαστεί με δειγματοληψία από την αντίστοιχη [[συνάρτηση κατανομής]]. Όπως και να 'χει, μπορεί να χρησιμοποιηθεί οποιαδήποτε συνάρτηση αναφοράς.
 
Η κανονικοποίηση ποσοστημορίων χρησιμοποιείται συχνά στην ανάλυση δεδομένων από [[Μικροσυστοιχίεςμικροσυστοιχίες γονιδίων]]. Προτάθηκε αρχικάστηναρχικά στην αγγλική ως '''quantile standardization'''<ref name="Amaratunga2001">{{Πρότυπο:Cite journal|title=Analysis of Data from Viral DNA Microchips|last2=Cabrera|first2=J.|journal=Journal of the American Statistical Association|issue=456|doi=10.1198/016214501753381814|year=2001|volume=96|pages=1161|pmc=|pmid=|last1=Amaratunga|first1=D.}}</ref> κι έπειτα άλλαξε την ονομασία της σε '''quantile normalization'''.<ref name="boldstad2003">{{Πρότυπο:Cite journal|title=A comparison of normalization methods for high density oligonucleotide array data based on variance and bias|last2=Irizarry|first2=R. A.|journal=Bioinformatics|issue=2|doi=10.1093/bioinformatics/19.2.185|year=2003|volume=19|pages=185–193|pmc=|pmid=12538238|last3=Astrand|first3=M.|last4=Speed|first4=T. P.|last1=Bolstad|first1=B. M.}}</ref>
 
== Παράδειγμα ==
Ακολουθεί μια σύντομη περιγραφή της μεθόδου σε ένα πολύ μικρό σύνολο δεδομένων:.
 
Έστω οι μικροσυστοιχίες 1 έως 3, και τα γονίδια A έως D:
A 5 4 3
B 2 1 4
C 3 4 6
D 4 2 8
Για κάθε στήλη αντιστοιχίζουμε ένα βαθμό (i-iv) από τη χαμηλότερη στην υψηλότερη τιμή:
A iv iii i
B i i ii
C 3 4 6 γίνεται C 4 4 6
D 4 2 8 γίνεται D 5 4 8
Τώρα υπολογίζουμε το μέσο όρο κάθε γραμμής για να αντιστοιχίσουμε τους βαθμούς:
A (2 1 3)/3 = 2.00 = βαθμός i
B (3 2 4)/3 = 3.00 = βαθμός ii
Στη συνέχεια παίρνουμε τον πίνακα βαθμών που υπολογίσαμε νωρίτερα και αντικαθιστούμε τις τιμές τους.
 
Το:
A iv iii i
B i i ii
56

επεξεργασίες