Ανάλυση ηχητικού σήματος

Η ανάλυση ηχητικών σημάτων (audio signal analysis) αναφέρεται στην εξαγωγή γνώσης η σχετίζεται με το περιεχόμενο και την φύση των σημάτων αυτών. Σκοπός της διαδικασίας αυτής είναι η ταξινόμηση (classification), η κατάτμηση (segmentation), η αυτόματη ανάκτηση (retrieval), η σύνθεση κ.α.

Σε γενικές γραμμές, η διαδικασία της ανάλυσης σημάτων ήχου αποτελείται από δύο μέρη. Αρχικά, εξάγονται ορισμένα χαρακτηριστικά (features) τα οποία πρέπει να μπορούν να διαφοροποιούν τις τιμές τους ανάλογα με το περιεχόμενο και την δομή των αντίστοιχων σημάτων. Σε αυτό το σημείο, είναι απαραίτητη η χρήση μεθόδων γνωστών από την ψηφιακή επεξεργασία σήματος. Όταν έχουν εξαχθεί τα ηχητικά χαρακτηριστικά (audio features) τα οποία περιγράφουν το αντίστοιχο ηχητικό σήμα, τότε, ανάλογα με την εφαρμογή, υιοθετείται μία μέθοδος από την περιοχή της αναγνώρισης προτύπων (pattern recognition).

Μερικές από τις εφαρμογές της ανάλυσης ηχητικών σημάτων είναι ^[1]^[2]:

Αναγνώριση ομιλίας
Αναγνώριση - επιβεβαίωση ομιλητή
Αναζήτηση και ανάκτηση πολυμεσικού περιεχομένου (π.χ., ταινιών, μουσικής).
Ταξινόμηση και ανάλυση μουσικών σημάτων

Ψηφιακή Αναπαράσταση Ηχητικών Σημάτων Επεξεργασία

Τα προς επεξεργασία και ανάλυση ηχητικά σήματα είναι στην συντριπτική πλειοψηφία των περιπτώσεων σε ψηφιακή μορφή. Υπ'αυτή την έννοια, αποτελούν απλά μια ειδική περίπτωση ψηφιακών σημάτων και επομένως ισχύουν οι γενικές αρχές της ψηφιακής επεξεργασίας σήματος ^[3].

Σε γενικές γραμμές, ένα ψηφιακό ηχητικό σήμα είναι στην ουσία το αποτέλεσμα της διαδικασίας της δειγματοληψίας και κβάντισης ενός αναλογικού ηχητικού σήματος. Σύμφωνα με την "διπλή" αυτή διαδικασία ένα αναλογικό σήμα (δηλαδή ένα σήμα συνεχούς χρόνου με συνεχές πλάτος) δειγματοληπτείται και το κάθε δείγμα υφίσταται κβάντιση, χρησιμοποιώντας ένα προκαθορισμένο σύνολο δυνατών τιμών. Η διαδικασία αυτή πραγματοποιείται, για παράδειγμα, όταν ηχογραφούμε ένα ηχητικό σήμα χρησιμοποιώντας την κάρτα ήχου ενός υπολογιστή. Η ποιότητα δειγματοληψίας περιγράφεται από την επιλογή της συχνότητας δειγματοληψίας (sampling frequency), ενώ η ποιότητα της διαδικασίας της κβάντισης εξαρτάται από το σύνολο των τιμών που μπορεί να λάβει ένα δείγμα. Αυτό το τελευταίο μέγεθος αναφέρεται συνήθως σαν bit depth. Αν, για παράδειγμα, επιλέξουμε bit depth ίσο με $16$ , τότε μπορούμε να αναπαραστήσουμε κάθε δείγμα με $2^{16}=65536$ δυνατές τιμές.

Η διαδικασία της κβάντισης εισάγει (για προφανείς λόγους) ένα ποσοστό θορύβου. Ωστόσο, για τις περισσότερες εφαρμογές $16$ bit είναι αρκετά για να καλύψουν τις ανάγκες σε ποιότητα ήχου. Για πιο απαιτητικές εφαρμογές, ορισμένες φορές χρησιμοποιείται ανάλυση $24$ bit. Πιο σημαντική ωστόσο είναι η επιλογή της δειγματοληψίας. Σύμφωνα με το θεώρημα Nyquist, ένα αναλογικό σήμα μπορεί να αναπαραχθεί από το αντίστοιχο διακριτό όταν έχει χρησιμοποιηθεί συχνότητα δειγματοληψίας η οποία είναι τουλάχιστον διπλάσια από την μέγιστη συχνότητα του αρχικού σήματος. Για παράδειγμα, αν οι συχνότητες ενός συνεχούς σήματος εκτείνονται μέχρι τα $1000$ Hz, τότε πρέπει να χρησιμοποιηθεί συχνότητα δειγματοληψίας τουλάχιστον ίση με $2$ KHz. Συνηθισμένες συχνότητες δειγματοληψίας για την περίπτωση των ηχητικών σημάτων είναι $44.1$ KHz για μουσική και $32$ , $16$ ή και $8$ KHz για ομιλία. Είναι επίσης προφανές, ότι μεγάλες συχνότητες δειγματοληψίας, αν και βελτιώνουν την ποιότητα του ψηφιακού σήματος, μπορεί να οδηγήσουν σε μεγάλες υπολογιστικές πολυπλοκότητες στους αλγορίθμους ανάλυσης, εφόσον σημαίνουν περισσότερα δείγματα ανά δευτερόλεπτο τα οποία πρέπει να επεξεργαστούμε.

Σύμφωνα με τα παραπάνω, ένα ψηφιακό ηχητικό σήμα αναπαρίσταται από μία ακολουθία κβαντισμένων δειγμάτων. Έστω ότι $x(n),n=1,\ldots ,L$ είναι η ακολουθία αυτή, και $L$ το πλήθος των δειγμάτων. Προφανώς, η χρονική διάρκεια του σήματος σε δευτερόλεπτα είναι ${\frac {L}{Fs}}$ , όπου $Fs$ είναι η συχνότητα δειγματοληψίας σε Hz.

Εξαγωγή Ηχητικών Χαρακτηριστικών Επεξεργασία

Βραχυπρόθεσμη Επεξεργασία Σήματος Επεξεργασία

Προκειμένου να εξάγουμε ηχητικά χαρακτηριστικά από τα αντίστοιχα σήματα, πρέπει να υιοθετήσουμε την βραχυπρόθεσμη επεξεργασία (short-term processing). Αυτό συμβαίνει διότι, τα ηχητικά σήματα είναι είναι μη στάσιμα (non-stationary), το οποίο πρακτικά σημαίνει ότι οι στατιστικές τους ιδιότητες δεν παραμένουν σταθερές στον χρόνο. Έτσι, η short-term επεξεργασία έγκειται στην διαίρεση η παραθύρωση (windowing), δηλαδή την τμηματική εφαρμογή παραθύρων τα οποία κάθε φορά μετακινούνται στον χρόνο και έτσι "απομονώνουν" ένα ξεχωριστό "πλαίσιο" (frame) του σήματος ^[2]^[4] .

Το παράθυρο που εφαρμόζεται στην παραπάνω διαδικασία είναι στην ουσία μία χρονική ακολουθία, έστω Δεν μπόρεσε να γίνει ανάλυση του όρου. (SVG (Η MathML μπορεί να ενεργοποιηθεί μέσω μιας προσθήκης στο πρόγραμμα περιήγησης): Μη αποδεκτή απάντηση ("Math extension cannot connect to Restbase.") από τον εξυπηρετητή "http://localhost:6011/el.wikipedia.org/v1/":): {\displaystyle w(n)} , διάρκειας $L$ δειγμάτων. Το απλούστερο παράθυρο είναι το τετραγωνικό, το οποίο ορίζεται σύμφωνα με την ακόλουθη εξίσωση:

Δεν μπόρεσε να γίνει ανάλυση του όρου. (SVG (Η MathML μπορεί να ενεργοποιηθεί μέσω μιας προσθήκης στο πρόγραμμα περιήγησης): Μη αποδεκτή απάντηση ("Math extension cannot connect to Restbase.") από τον εξυπηρετητή "http://localhost:6011/el.wikipedia.org/v1/":): {\displaystyle w(n) = \left\{ \begin{array}{ll} 1, & 0 \leq n \leq N-1 \\ 0, & otherwise \end{array}\right. }

Η παραθύρωση του αρχικού ηχητικού σήματος γίνεται πολλαπλασιάζοντας, στοιχείο προς στοιχείο, τις δύο ακολουθίες:

$x_{i}(n')\equiv x(n)w(n-m_{i})$

όπου, $i$ είναι ο δείκτης του παραθύρου (frame) και $m_{i}$ είναι η χρονική μετατόπιση του αντίστοιχου frame. Το μέγεθος του παραθύρου πρέπει να είναι αφενός αρκετά μεγάλο, ώστε να μπορούν να υπολογισθούν τα φασματικά χαρακτηριστικά του, και αφετέρου όχι πολύ μεγάλο, ώστε να μην χαθεί η ιδιότητα της στασιμότητας. Συνήθεις τιμές του μεγέθους του παραθύρου στην ανάλυση και επεξεργασία ηχητικών σημάτων είναι από $10$ μέχρι $50$ msecs. Όσο αφορά στο βήμα της διαδικασίας παραθύρωσης (δηλαδή το πόσο μετατοπίζεται κάθε φορά το παράθυρο στον χρόνο), αυτό σχετίζεται με τον επιθυμητό βαθμό επικάλυψης (overlap). Για παράδειγμα, ας υποθέσουμε ότι επιθυμούμε $75\%$ επικάλυψη, και το παράθυρο είναι $40$ msecs, τότε το βήμα θα είναι $10$ msecs. Το μέγεθος του παραθύρου σε δείγματα εξαρτάται προφανώς από την συχνότητα δειγματοληψίας του σήματος ( $Fs$ ). Έτσι, αν για παράδειγμα $Fs=16000$ Hz, τότε στο παραπάνω παράδειγμα το μήκος του παραθύρου είναι ίσο με $640$ δείγματα, ενώ το βήμα είναι $160$ δείγματα.

Παραπομπές Επεξεργασία

↑ Hyoung-Gook Kim, Nicolas Moreau, Thomas Sikora, MPEG-7 Audio and Beyond: Audio Content Indexing and Retrieval, Wiley, 2005, ISBN 978-0-470-09334-4
↑ ^2,0 ^2,1 Theodoros Giannakopoulos, Study and application of acoustic information for the detection of harmful content, and fusion with visual information, PhD Thesis, University of Athens, 2009
↑ John G.,Proakis, Dimitris,Manolakis, Digital Signal Processing, Prentice Hall, 2006, ISBN 9780131873742
↑ Sergios Theodoridis, Konstantinos Koutroumbas, Pattern Recognition , Fourth Edition, Academic Press, 2009, ISBN 978-1-59749-272-0.

[audioMPEG7-1] Hyoung-Gook Kim, Nicolas Moreau, Thomas Sikora, MPEG-7 Audio and Beyond: Audio Content Indexing and Retrieval, Wiley, 2005, ISBN 978-0-470-09334-4

[tyiannakPHD-2] 2,0 ^2,1 Theodoros Giannakopoulos, Study and application of acoustic information for the detection of harmful content, and fusion with visual information, PhD Thesis, University of Athens, 2009

[proakisDSP-3] John G.,Proakis, Dimitris,Manolakis, Digital Signal Processing, Prentice Hall, 2006, ISBN 9780131873742

[thedoridisBook-4] Sergios Theodoridis, Konstantinos Koutroumbas, Pattern Recognition , Fourth Edition, Academic Press, 2009, ISBN 978-1-59749-272-0.

[1]

[2]

[3]

[4]