Θεωρία πληροφορίας: Διαφορά μεταξύ των αναθεωρήσεων

Περιεχόμενο που διαγράφηκε Περιεχόμενο που προστέθηκε
μ επιμέλεια
Γραμμή 49:
==Ποσότητες πληροφορίας==
 
Η Θεωρία της πληροφορίας βασίζεται στη [[θεωρία πιθανοτήτων]] και στην [[στατιστική]]. Οι σημαντικότερες ποσότητες της πληροφορίας ειναιείναι η [[Εντροπία πληροφοριών|εντροπία]], η πληροφορία σε μία [[τυχαία μεταβλητή]], και η κοινηκοινή πληροφορία: η ποσότητα αποαπό κοινού της πληροφορίας αναμεσαανάμεσα σε δύο τυχαίες μεταβλητές. Η πρότερη ποσότητα υποδεικνύει το πόσο εύκολα [[Συμπίεση δεδομένων|συμπιέζονται]] τα δεδομένα μηνύματος ενώ η τελευταία χρησιμοποιείται για να διαπιστωθεί το ποσοστό της επικοινωνίας δια μέσου ενός [[Κανάλι μετάδοσης|καναλιού μετάδοσης]].
 
Η επιλογή της βάσης του λογαρίθμου στηνστη φόρμουλα που επακολουθεί καθορίζει το σύνολο της πληροφορίας της [[Εντροπία πληροφοριών|εντροπίας]] που χρησιμοποιήθηκε. Η συνηθέστερη μονάδα της πληροφορίας ειναιείναι το [[Bit]], βασιζόμενο στον δυαδικό λογάριθμο(log<sub>2</sub>&nbsp;''n'') . Άλλες μονάδες συμπεριλαμβανομένου του nat, το οποίο βασίζεται στον φυσικό λογάριθμο (λογάριθμος με βαση το e), και στο hartley( ή ban) το οποίο βασίζεται στον κοινό λογάριθμο(λογάριθμος με βαση το 10).
 
Σ´ αύτααυτά που ακολουθούν, η έκφραση της μορφής <math>p \log p \,</math> θεωρείται συμβατικά να είναι ίση με 0 όταν <math>p=0.</math>.Αυτό δικαιολογείται επειδή <math>\lim_{p \rightarrow 0+} p \log p = 0</math> για οποιαδήποτε λογαριθμική βάση.
 
 
Γραμμή 59:
 
[[Image:Binary entropy plot.svg|thumbnail|right|200px|Entropy of a [[Bernoulli trial]] as a function of success probability, often called the '''[[binary entropy function]]''', <math>H_\mbox{b}(p)</math>. The entropy is maximized at 1 bit per trial when the two possible outcomes are equally probable, as in an unbiased coin toss.]]
Η [[Εντροπία πληροφοριών|εντροπία]], <math>H</math>, μιας διακριτής τυχαίας μεταβλητής <math>X</math> είναι ένα μέτρο της ποσότητας της αβεβαιότητας που σχετίζεται με τηντη τιμή του <math>X</math>.
Ας υποθέσουμε ότι μεταδίδονται 1000 bits (τα δυαδικά ψηφία 0 και 1) . Εάν αυτά (bits) είναι γνωστά πριν από την μετάδοση ( δηλαδή μια συγκεκριμένη τιμή με απόλυτη πιθανότητα), η λογική προστάζει ότι καμία πληροφορία δεν έχει μεταδοθεί.Αν , ωστόσο, κάθε bit είναι ισοπίθανα και ανεξάρτητα πιθανό να είναι 0 ή 1, 1000 bits( (υπό την έννοια της θεωρίας της πληροφορίας) έχουν μεταδοθεί. Μεταξύ αυτών των δύο άκρων ,η πληροφορία μπορεί να ποσοτικοποιηθεί όπως ακολουθεί. Αν <math>\mathbb{X}</math> είναι το σύνολο από όλα τα μηνύματα <math>\{x_1, ..., x_n\}</math> που <math>X</math> μπορεί να είναι, και <math>p(x)</math> είναι η πιθανότητα κάποιου <math>x \in \mathbb X</math>, τότε η εντροπία <math>H</math> του <math>X</math> καθορίζεται :
 
<math> H(X) = \mathbb{E}_{X} [I(x)] = -\sum_{x \in \mathbb{X}} p(x) \log p(x).</math>.
Γραμμή 71:
 
===Κοινή Εντροπία===
Η κοινή εντροπία δύο διακριτών μεταβλητών <math>X</math> και <math>Y</math> είναι απλά η εντροπία από το ζεύγος : <math>(X, Y)</math>. Αυτό συνεπάγεται ότι αν τα <math>X</math> και <math>Y</math> είναι ανεξάρτητα , τότε η κοινή εντροπία είναι το άθροισμα από τις ατομικές εντροπίες.
Για παράδειγμα , αν <math>(X, Y)</math> συμβολίζει την θέση από ένα πιόνι σκακιού - <math>X</math> η γραμμή και <math>Y</math> η στήλη , τότε η κοινή εντροπία της γραμμής και της στήλης του πιονιού θα είναι η εντροπία της θέσης του.
 
<math>H(X, Y) = \mathbb{E}_{X,Y} [-\log p(x,y)] = - \sum_{x, y} p(x, y) \log p(x, y) \,</math>
Γραμμή 84:
<math> H(X|Y) = \mathbb E_Y [H(X|y)] = -\sum_{y \in Y} p(y) \sum_{x \in X} p(x|y) \log p(x|y) = -\sum_{x,y} p(x,y) \log \frac{p(x,y)}{p(y)}.</math>
 
Επειδή η εντροπία μπορεί να εξαρτηθεί από μια τυχαία μεταβλητή ή από αυτήν την μεταβλητή που έχει μια συγκεκριμένη τιμή, προσοχή πρέπει να δοθεί ώστε να μην συγχέονται αυτοί οι δύο ορισμοί της υπό συνθήκη εντροπίας, με τον πρώτο να χρησιμοποιείται συχνότερα. Μια βασική ιδιότητα αυτού του τύπου της υπό συνθήκη εντροπίας είναι ότι :
 
<math> H(X|Y) = H(X,Y) - H(Y) .\,</math>
Γραμμή 99:
<math>I(X;Y) = H(X) - H(X|Y).\,</math>
 
Με δεδομένο το Y , μπορούμε να σώσουμε κατά μέσο όρο <math>I(X; Y)</math> bits στην κωδικοποίηση του Χ , από ότι αν το Υ έιναιείναι άγνωστο.
 
Η κοινή πληροφορία είναι συμμετρική:
Γραμμή 116:
 
===Kullback-Leibler απόκλιση===
Η απόκλιση του Κullback-Leibler (ή αλλιώς απόκλιση της πληροφορίας ή σχετική εντροπία) είναι ενας τρόπος για να συγκρίνεις δυο κατανομες:μια "πραγματικη" κατανομή πιθανοτήτων p(X) και μία αυθαίρετη κατανομή πιθανοτήτων q(X). Αν συμπιέσουμε δεδομένα με ένα τρόπο που υποθέτει ότι q(X) είναι η κατανομή πίσω απο κάποια δεδομένα,τότε στην πραγματικότητα το p(X) είναι η σωστή κατανομη,η απόκλιση του Kullback-Leibler είναι ο μέσος αριθμός επιπλέον bits ανά δεδομένο που είναι απαραίτητο για τη συμπίεση. Είναι επομένως ορισμένο
 
<math>D_{\mathrm{KL}}(p(X) \| q(X)) = \sum_{x \in X} -p(x) \log {q(x)} \, - \, \left( -p(x) \log {p(x)}\right) = \sum_{x \in X} p(x) \log \frac{p(x)}{q(x)}.</math>
 
Αν και μερικές φορές χρησιμοποιείται σαν μια μετρική απόσταση,η απόκλιση του Kullback-Leibler δέν είναι μία πραγματική [[Μετρική(μαθηματικα)|μετρική]] εφ΄όσονεφόσον δεν είναι συμμετρική και δεν ικανοποιεί την [[Τριγωνική ανισότητα]]
 
===Η απόκλιση του Kullback-Leibler των πρότερων απο την αληθεια===