Αυτοεποπτευόμενη μάθηση

Η αυτο-εποπτευόμενη μάθηση είναι ένας κλάδος της μηχανικής μάθησης αποτελεί ενδιάμεση μορφή μεταξύ της επιβλεπόμενης και της μη επιβλεπόμενης μάθησης . Είναι είδος αυτόνομης μάθησης με χρήση τεχνητών νευρωνικών δικτύων που δεν απαιτεί δειγματοληπτικά δεδομένα ταξινομημένα εκ των προτέρων από ανθρώπους[1]. Κατ' αρχάς, το δίκτυο καλείται να αντιμετωπίσει ένα έργο, το οποίο είναι συγκριτικά εύκολο να επιλυθεί και να αξιολογηθεί, αλλά απαιτεί υψηλό βαθμό σημασιολογικής κατανόησης των δεδομένων, η οποία με τη σειρά της είναι χρήσιμη για την επίλυση ενός άλλου, επόμενου έργου[2][3]. Ενώ το πρώτο βήμα βασίζεται συνήθως σε ψευδο-ετικέτες που δημιουργούνται από μετασχηματισμό των αρχικών δεδομένων, η πραγματική ταξινόμηση μπορεί να πραγματοποιηθεί με επιβλεπόμενη ή μη επιβλεπόμενη μάθηση[4][5][6]. Η φιλοσοφία αυτής της προκαταρκτικής εργασίας είναι ότι η επίλυση αυτού του συγκριτικά απλού προβλήματος αρχικοποιεί τα βάρη του νευρωνικού δικτύου με τέτοιο τρόπο ώστε το μοντέλο να μπορεί να χρησιμοποιηθεί και σε άλλες εφαρμογές[7]. Η αυτοεπιβλεπόμενη μάθηση έχει δώσει πολλά υποσχόμενα αποτελέσματα τα τελευταία χρόνια και έχει ήδη βρει πρακτική εφαρμογή στην επεξεργασία εικόνας, βίντεο και ήχου και χρησιμοποιείται, μεταξύ άλλων, από το Facebook για αυτόματη αναγνώριση ομιλίας[8].

Διάκριση από άλλες μορφές μηχανικής μάθησης

Επεξεργασία

Η αυτοεπιβλεπόμενη μάθηση ανήκει στις διαδικασίες της επιβλεπόμενης μάθησης, δεδομένου ότι ο στόχος της μεθόδου είναι η παραγωγή ταξινομημένης εξόδου από τα δεδομένα εισόδου. Ταυτόχρονα, όμως, δεν είναι απαραίτητη η σαφής χρήση επισημειωμένων ζευγών εισόδου-εξόδου. Αντ' αυτού, οι συσχετίσεις, τα μεταδεδομένα που ενσωματώνονται στα δεδομένα ή η γνώση του πεδίου που υπάρχει στα δεδομένα εισόδου εξάγονται εμμέσως και αυτοτελώς από τα δεδομένα εισόδου[9]. Αυτές οι πληροφορίες, που παράγονται από τα ίδια τα δεδομένα, χρησιμοποιούνται στη συνέχεια για την ταξινόμησή τους[10].

Η μάθηση με αυτοεπίβλεψη είναι επίσης παρόμοια με τη μάθηση χωρίς επίβλεψη, καθώς δεν απαιτεί ρητά καθορισμένες ετικέτες στα δειγματικά δεδομένα. Ωστόσο, σε αντίθεση με τη μάθηση χωρίς επίβλεψη, η πραγματική μάθηση δεν πραγματοποιείται με τη βοήθεια εγγενών δομών δεδομένων[9].

Ο συνδυασμός εποπτευόμενης και μη εποπτευόμενης μάθησης ονομάζεται ημι-εποπτευόμενη μάθηση. Στην περίπτωση αυτή, μόνο ένα μικρό μέρος των δεδομένων μάθησης είναι ήδη επισημειωμένο. Η αυτοεποπτευόμενη μάθηση διαφέρει επίσης σημαντικά από αυτήν, καθώς δεν απαιτεί καθόλου σαφείς ετικέτες[3].

Εφαρμογή

Επεξεργασία

Η αυτοεποπτευόμενη μάθηση είναι πολύ πιο αποτελεσματική από την ποπτευόμενη μάθηση, ειδικά όταν είναι διαθέσιμα μόνο λίγα δειγματοληπτικά δεδομένα από τα οποία μπορεί κανείς να διδαχθεί. Από την άποψη αυτή, η μέθοδος έχει τη δυνατότητα να ξεπεράσει τους προηγούμενους περιορισμούς της μηχανικής μάθησης και να ανοίξει νέους τομείς εφαρμογής.[11][12]. Η αυτοεποπτευόμενη μάθηση είναι ιδιαίτερα κατάλληλη για αυτόματη επεξεργασία εικόνας, ομιλίας και βίντεο[13][14]. Το Facebook, για παράδειγμα, ανέπτυξε το wav2vec, έναν αυτοεπιβλεπόμενο αλγόριθμο για την αυτόματη αναγνώριση ομιλίας, χρησιμοποιώντας δύο βαθιά νευρωνικά δίκτυα που βασίζονται το ένα στο άλλο[8]. Το μοντέλο BERT (Bidirectional Encoder Representations from Transformers) που ανέπτυξε η Google, για παράδειγμα, χρησιμοποιείται για την καλύτερη κατανόηση του πλαισίου των ερωτημάτων αναζήτησης.[15] Επιπλέον, κατά τη διάρκεια της έρευνας της OpenAi, αναπτύχθηκε ένα αυτοπαλίνδρομο γλωσσικό μοντέλο που ονομάζεται GPT-3 και μπορεί να χρησιμοποιηθεί στην επεξεργασία μηχανικής γλώσσας. Αυτό μπορεί να χρησιμοποιηθεί για τη μετάφραση κειμένων ή την απάντηση ερωτήσεων, μεταξύ άλλων. [16] Οι υπάρχουσες μέθοδοι, όπως η ομαδοποίηση, η μείωση της διάστασης ή τα συστήματα συστάσεων, μπορούν επίσης να βελτιωθούν μέσω της αυτοεπιβλεπόμενης μάθησης[1]. Συγκεκριμένα παραδείγματα εφαρμογής είναι η αυτόνομη οδήγηση[17], η ρομποτική χειρουργική[18] ή η μονοφθάλμια ενδοσκόπηση[19].

Λογισμικό

Επεξεργασία
  • Lightly - Μια βιβλιοθήκη Python ανοιχτού κώδικα για αυτοεποπτευόμενη μάθηση με εικόνες
  • OpenSelfSup - Εργαλειοθήκη και σημείο αναφοράς για αυτοεποπτευόμενη μάθηση
  • VISSL - Το VISSL είναι μια βιβλιοθήκη επεκτάσιμων, αρθρωτών και κλιμακούμενων στοιχείων για αυτοεποπτευόμενη μάθηση με εικόνες

Σχετικές δημοσιεύσεις

Επεξεργασία

Η εργασία "ALBERT: A Lite BERT for Self-Supervised Learning of Language Representation" έχει τις περισσότερες αναφορές στην αυτοεποπτευόμενη μάθηση, αν και είναι από τις πιο πρόσφατες (από τον Δεκέμβριο του 2020). Συντάχθηκε από ερευνητές της Google Research και του Τεχνολογικού Ινστιτούτου της Toyota στο Σικάγο. Η εργασία δημοσιεύθηκε ως ανακοίνωση συνεδρίου στο Διεθνές Συνέδριο για τις Αναπαραστάσεις Μάθησης (ICLR) 2020. Στόχος της εργασίας είναι η μείωση της κατανάλωσης μνήμης και η αύξηση της ταχύτητας της εκπαίδευσης BERT. Η BERT ή Bidirectional Encoder Representations from Transformers, ή αλλιώς Αναπαραστάσεις κωδικοποιητή διπλής κατεύθυνσης από μετασχηματιστές, είναι μια τεχνική για την προκαταρκτική εκμάθηση επεξεργασίας μηχανικής γλώσσας. [20]

Το "Self-Supervised Learning of Audio-Visual Objects from Video" γράφτηκε από συγγραφείς από το Πανεπιστήμιο της Οξφόρδης και το Πανεπιστήμιο του Μίσιγκαν. Ένας από τους συγγραφείς είναι ο Άντριου Ζίσερμαν (Andrew Zisserman), καθηγητής στο Πανεπιστήμιο της Οξφόρδης, ο οποίος συνεισφέρει πολλά στην έρευνα για την αυτοεπιβλεπόμενη μάθηση. Στο πλαίσιο της εργασίας, οι ερευνητές εξηγούν μια μέθοδο "για τη μετατροπή ενός βίντεο σε ένα σύνολο διακριτών οπτικοακουστικών αντικειμένων με τη χρήση αυτοεποπτευόμενης μάθησης". [21]

Συγγραφείς από την DeepMind και το Πανεπιστήμιο της Οξφόρδης δημοσίευσαν την εργασία "Multi-Task Self-Supervised Visual Learning" στα Πρακτικά του ICCV 2017. Είναι επίσης μία από τις εργασίες με τις περισσότερες αναφορές στην αυτοεποπτευόμενη μάθηση. Στο πλαίσιο της δημοσίευσης, οι ερευνητές ανέπτυξαν μεθόδους για την εκτέλεση πολλαπλών εργασιών μαζί με αυτοεποπτευόμενη μάθηση. Το αποτέλεσμα της έρευνας ήταν ότι ο συνδυασμός πολλαπλών εργασιών αυξάνει την απόδοση.[2]

Αναφορές

Επεξεργασία
  1. 1,0 1,1 Chris Abshire: Self-Supervised Learning: A Key to Unlocking Self-Driving Cars? 6 Απριλίου 2018, ανακτήθηκε στις 3 Νοεμβρίου 2020
  2. 2,0 2,1 Carl Doersch, Abhinav Gupta, Alexei A. Efros: Unsupervised Visual Representation Learning by Context Prediction. 2015, σελ. 1422–1430 (cv-foundation.org, ανακτήθηκε στις 3/11/2020)
  3. 3,0 3,1 Xiaohua Zhai, Avital Oliver, Alexander Kolesnikov, Lucas Beyer, Self-Supervised Semi-Supervised Learning, 2019, σελ. 1476–1485 [1], ανακτήθηκε στις 3/11/2020
  4. Carl Doersch, Abhinav Gupta, Alexei A. Efros, Unsupervised Visual Representation Learning by Context Prediction, 2015, σελ. 1422–1430, [2], ανακτήθηκε στις 3/11/2020
  5. Xin Zheng, Yong Wang, Guoyou Wang, Jianguo Liu, Fast and robust segmentation of white blood cell images by self-supervised learning, Micron, τ. 107, 1/4/2018, ISSN=0968-4328, σελ. 55–71 [3], ανακτήθηκε στις 3/11/2020, DOI=10.1016/j.micron.2018.01.010
  6. Spyros Gidaris, Andrei Bursuc, Nikos Komodakis, Patrick Perez, Matthieu Cord, Boosting Few-Shot Visual Learning With Self-Supervision, 2019, σελ. 8059–8068, [4], ανακτήθηκε στις 3/11/2020
  7. Mehdi Noroozi, Paolo Favaro, Unsupervised Learning of Visual Representations by Solving Jigsaw Puzzles, Computer Vision – ECCV 2016, τ. 9910, Springer International Publishing, Cham, 2016, ISBN 978-3-319-46465-7, σελ. 69–84, DOI=10.1007/978-3-319-46466-4_5
  8. 8,0 8,1 Wav2vec: State-of-the-art speech recognition through self-supervision, ανακτήθηκε στις 3/11/2020
  9. 9,0 9,1 Carlos E. Perez, The Paradigm Shift of Self-Supervised Learning, 3/6/2019, ανακτήθηκε στις 3/11/2020
  10. Louis (What’s AI) Bouchard What is Self-Supervised Learning ? , Will machines be able to learn like humans ?, 27/5/2020, ανακτήθηκε στις 3/11/2020
  11. Longlong Jing, Yingli Tian, Self-supervised Visual Feature Learning with Deep Neural Networks: A Survey, IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, ISSN 0162-8828, σελ. 1–1, [5], ανακτήθηκε στς 3/11/2020, DOI=10.1109/TPAMI.2020.2992393
  12. Vincent Vanhoucke, The Quiet Semi-Supervised Revolution, 15/5/2019, ανακτήθηκε στις 3/11/2020
  13. Olivier J. Hénaff, Aravind Srinivas, Jeffrey De Fauw, Ali Razavi, Carl Doersch, Data-Efficient Image Recognition with Contrastive Predictive Coding, 1/7/2020, [6]
  14. Dahun Kim, Donghyeon Cho, In So Kweon, Self-Supervised Video Representation Learning with Space-Time Cubic Puzzles, Proceedings of the AAAI Conference on Artificial Intelligence, τ.33, 01, 17/7/2019, ISSN=2374-3468, σελ. 8545–8552 [7], ανακτήθηκε στις 3/11/2020, DOI=10.1609/aaai.v33i01.33018545
  15. Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing, Google AI Blog, 18/01/2021
  16. Brown, Tom B. ; Mann, Benjamin ; Ryder, Nick et al.: Language Models are Few-Shot Learners. 28/5/2020
  17. J. Scholtz, B. Antonishek, J. Young, Operator interventions in autonomous off-road driving: effects of terrain, 2004 IEEE International Conference on Systems, Man and Cybernetics (IEEE Cat. No.04CH37583), εκδ. IEEE, ISBN 0-7803-8567-5 DOI=10.1109/icsmc.2004.1400756
  18. M Ye, E Johns, A Handa, L Zhang, P Pratt, Self-Supervised Siamese Learning on Stereo Image Pairs for Depth Estimation in Robotic Surgery, 10th Hamlyn Symposium on Medical Robotics 2017, εκδ. The Hamlyn Centre, Faculty of Engineering, Imperial College London, 2017, ISBN=978-0-9563776-8-5, DOI=10.31256/hsmr2017.14
  19. Xingtong Liu, Ayushi Sinha, Masaru Ishii, Gregory D. Hager, Austin Reiter, Dense Depth Estimation in Monocular Endoscopy With Self-Supervised Learning Methods, IEEE Transactions on Medical Imaging, τομ. 39, αρ. 5, 5/2020, ISSN=0278-0062, σελ. 1438–1447, DOI=10.1109/tmi.2019.2950936
  20. Lan, Zhenzhong ; Chen, Mingda ; Goodman, Sebastian ; Gimpel, Kevin ; Sharma, Piyush ; Soricut, Radu: ALBERT: A Lite BERT for Self-supervised Learning of Language Representations. 26. September 2019
  21. Afouras, Triantafyllos ; Owens, Andrew ; Chung, Joon Son ; Zisserman, Andrew: Self-Supervised Learning of Audio-Visual Objects from Video. 10. August 2020