Βραβείο Netflix: Διαφορά μεταξύ των αναθεωρήσεων

Περιεχόμενο που διαγράφηκε Περιεχόμενο που προστέθηκε
μΧωρίς σύνοψη επεξεργασίας
Χωρίς σύνοψη επεξεργασίας
Γραμμή 2:
Το Βραβείο Netflix ήταν ένας ανοιχτός διαγωνισμός για την ανάδειξη του καλύτερου συνεργατικού αλγορίθμου φιλτραρίσματος της πρόβλεψης των αξιολογήσεων χρηστών για ταινίες. Η βάση των προβλέψεων αυτών ήταν μόνο οι προηγούμενες αξιολογήσεις χρηστών χωρίς καμία άλλη πληροφοσία περί των χρηστών ή των ταινιών, π.χ. χωρίς να μπορούν να αναγνωριστούν οι χρήστες ή οι ταινίες, εκτός από αριθμούς οι οποίοι τους είχαν ανατεθεί για τον διαγωνισμό.
Ο διαγωνισμός πραγματοποιήθηκε από το Netflix, μια διαδικτυακή υπηρεσία ενοικίασης DVD και παροχής video streaming, και ήταν ανοιχτή σε όλους αρκεί να μη συνδεόταν με το Netflix (νυν και πρώην υπαλλήλους, πράκτορες, στενούς συγγενείς των υπαλλήλων του Netflix,κλπ) ή να ήταν κάτοικος της Κούβας, του Ιράν, της Συρίας, της Βόρειας Κορέα, της Βιρμανίας ή του Σουδάν. Στις 21 Σεπτεμβρίου 2009, το μεγάλο βραβείο των US$1,000,000 (Δολαρίων ΗΠΑ) δόθηκε στην ομάδα BellKor's Pragmatic Chaos, η οποία βελτιστοποίησσε τον υπάρχοντα αλγόριθμο του Netflix για πρόβλεψη αξιολογήσεων κατά 10.06%.
 
== Το πρόβλημα και τα Σύνολα Δεδομένων ==
 
Το Netflix παρείχε ένα σύνολο δεδομένων εκπαίδευσης (training data set) συνολικά 100.480.507 αξιολογήσεων οι οποίες είχαν γίνει από 480.189 χρήστες για 17.770 ταινίες. Κάθε εγγραφή του συνόλου δεδομένων εκπαίδευσης αποτελούνταν από μια τετράδα της μορφής <χρήστης, ταινία, ημερομηνία αξιολόγησης, βαθμός αξιολόγησης>. Τα πεδία του χρήστη και της ταινίας ήταν ακέραιοι αναγγνωστικοί αριθμοί, ενώ οι αξιολογήσεις ήταν ακέραιοι αριμοί εύρους 1-5 (αστέρια αξιολόγησης).
 
Το σύνολο δεδομένων κατάταξης (qualifying data set) περιείχε περισσότερες από 2.817.131 εγγραφές σε μορφή τριάδας <χρήστης, ταινία, ημερομηνία αξιολόγησης>, με τις τιμές των αξιολογήσεων να είναι γνωστές μόνο στην επιτροπή αξιολόγησης. Για να συμμετάσχει μια ομάδα θα έπρεπε να προτείνει έναν αλγόριθμο ο οποίος θα προέβλεπε τις αξιολογήσεις για ολόκληρο το σύνολο δεδομένων κατάταξης, αλλά οι συμμετέχοντες θα είχαν μόνο πληροφόρηση για το αποτέλεσμα των μισών από τα δεδομένα, το σύνολο των ερωτημάτων (quiz set) αποτελούμενο από 1.408.342 αξιολογήσεις. Το άλλο μισό ήταν το σύνολο ελέγχου (test set) των 1.408.789 εγγραφών, στου οποίου η επίδοση θα αποτελούσε τη βάση για να καθορίσει η επιτροπή τους πιθανούς νικητές του βραβείου. Μόνο η επιτροπή γνώριζε ποιές αξιολογήσεις βρίσκονταν στο σύνολο ερωτημάτων και ποιές βρίσκονταν στο σύνολο ελέγχου - αυτή η ρύθμιση είχε ως στόχο να καταστήσει δύσκολη την ανάβαση στο σύνολο ελέγχου.
 
== Εξωτερικοί Σύνδεσμοι ==