Βραβείο Netflix: Διαφορά μεταξύ των αναθεωρήσεων

Περιεχόμενο που διαγράφηκε Περιεχόμενο που προστέθηκε
Χωρίς σύνοψη επεξεργασίας
Διάσωση 2 πηγών και υποβολή 0 για αρχειοθέτηση.) #IABot (v2.0
Γραμμή 1:
Το '''Βραβείο Netflix''' ([[αγγλικά]]: '''''Netfix Prize''''') ήταν ένας ανοιχτός διαγωνισμός για την ανάδειξη του καλύτερου συνεργατικού [[Αλγόριθμος|αλγορίθμου]] φιλτραρίσματος της πρόβλεψης των αξιολογήσεων χρηστών για [[Κινηματογραφική ταινία|ταινίες]]. Η βάση των προβλέψεων αυτών ήταν μόνο οι προηγούμενες αξιολογήσεις χρηστών χωρίς καμία άλλη πληροφορία περί των χρηστών ή των ταινιών, π.χ. χωρίς να μπορούν να αναγνωριστούν οι χρήστες ή οι ταινίες, εκτός από αριθμούς οι οποίοι τους είχαν ανατεθεί για τον διαγωνισμό.
 
Ο διαγωνισμός πραγματοποιήθηκε από το ''[[Netflix]]'', μια διαδικτυακή υπηρεσία ενοικίασης [[DVD]] και παροχής video streaming, και ήταν ανοιχτή σε όλους αρκεί ο διαγωνιζόμενος να μη συνδεόταν με το Netflix (νυν και πρώην υπαλλήλους, πράκτορες, στενούς συγγενείς των υπαλλήλων του Netflix,κλπ) ή να ήταν κάτοικος της [[Κούβα|Κούβας]], του [[Ιράν]], της [[Συρία|Συρίας]], της [[Βόρεια Κορέα|Βόρειας Κορέας]], της [[Βιρμανία|Βιρμανίας]] ή του [[Σουδάν]].<ref>{{ cite web | url = http://www.netflixprize.com//rules | title = The Netflix Prize Rules | accessdate = 2014-04-01 }}</ref> Στις 21 Σεπτεμβρίου 2009, το μεγάλο βραβείο των US$ 1,000,000 (Δολαρίων ΗΠΑ) δόθηκε στην ομάδα BellKor's Pragmatic Chaos, η οποία βελτιστοποίησε τον υπάρχοντα αλγόριθμο του'' Netflix'' για πρόβλεψη αξιολογήσεων κατά 10.06%.<ref name="rules">{{ cite web | url = http://www.netflixprize.com//community/viewtopic.php?id=1537 | title = The Netflix Prize | accessdate = 2012-07-09 | archiveurl = https://web.archive.org/web/20090924184639/http://www.netflixprize.com/community/viewtopic.php?id=1537 | archivedate = 2009-09-24 | url-status = dead }}</ref>
 
== Το Πρόβλημα και τα Σύνολα Δεδομένων ==
Το Netflix παρείχε ένα σύνολο δεδομένων εκπαίδευσης (training data set) συνολικά 100.480.507 αξιολογήσεων οι οποίες είχαν γίνει από 480.189 χρήστες για 17.770 ταινίες. Κάθε εγγραφή του συνόλου δεδομένων εκπαίδευσης αποτελούνταν από μια τετράδα της μορφής <χρήστης, ταινία, ημερομηνία αξιολόγησης, βαθμός αξιολόγησης>. Τα πεδία του χρήστη και της ταινίας ήταν ακέραιοι αναγνωστικοί αριθμοί, ενώ οι αξιολογήσεις ήταν ακέραιοι αριθμοί εύρους 1-5 (αστέρια αξιολόγησης).<ref name="bennet">{{ cite conference | last = James Bennett | author2 = Stan Lanning | title = The Netflix Prize | url = http://www.netflixprize.com/assets/NetflixPrizeKDD_to_appear.pdf | booktitle = Proceedings of KDD Cup and Workshop 2007 | date = August 12, 2007 | accessdate = 2007-08-25 | archiveurl = https://web.archive.org/web/20070927051207/http://www.netflixprize.com/assets/NetflixPrizeKDD_to_appear.pdf | archivedate = 2007-09-27 | url-status = dead }}</ref>
 
Το σύνολο δεδομένων κατάταξης (qualifying data set) περιείχε περισσότερες από 2.817.131 εγγραφές σε μορφή τριάδας <χρήστης, ταινία, ημερομηνία αξιολόγησης>, με τις τιμές των αξιολογήσεων να είναι γνωστές μόνο στην επιτροπή αξιολόγησης. Για να συμμετάσχει μια ομάδα θα έπρεπε να προτείνει έναν αλγόριθμο ο οποίος θα προέβλεπε τις αξιολογήσεις για ολόκληρο το σύνολο δεδομένων κατάταξης, αλλά οι συμμετέχοντες θα είχαν μόνο πληροφόρηση για το αποτέλεσμα των μισών από τα δεδομένα, το σύνολο των ερωτημάτων (quiz set) αποτελούμενο από 1.408.342 αξιολογήσεις. Το άλλο μισό ήταν το σύνολο ελέγχου (test set) των 1.408.789 εγγραφών, επί του οποίου η επίδοση θα αποτελούσε τη βάση για να καθορίσει η επιτροπή τους πιθανούς νικητές του βραβείου. Μόνο η επιτροπή γνώριζε ποιες αξιολογήσεις βρίσκονταν στο σύνολο ερωτημάτων και ποιες βρίσκονταν στο σύνολο ελέγχου - αυτή η ρύθμιση είχε ως στόχο να καταστήσει δύσκολη την ανάβαση στο σύνολο ελέγχου.