Το Βραβείο Netflix (αγγλικά: Netfix Prize) ήταν ένας ανοιχτός διαγωνισμός για την ανάδειξη του καλύτερου συνεργατικού αλγορίθμου φιλτραρίσματος της πρόβλεψης των αξιολογήσεων χρηστών για ταινίες. Η βάση των προβλέψεων αυτών ήταν μόνο οι προηγούμενες αξιολογήσεις χρηστών χωρίς καμία άλλη πληροφορία περί των χρηστών ή των ταινιών, π.χ. χωρίς να μπορούν να αναγνωριστούν οι χρήστες ή οι ταινίες, εκτός από αριθμούς οι οποίοι τους είχαν ανατεθεί για τον διαγωνισμό.

Ο διαγωνισμός πραγματοποιήθηκε από το Netflix, μια διαδικτυακή υπηρεσία ενοικίασης DVD και παροχής video streaming, και ήταν ανοιχτή σε όλους αρκεί ο διαγωνιζόμενος να μη συνδεόταν με το Netflix (νυν και πρώην υπαλλήλους, πράκτορες, στενούς συγγενείς των υπαλλήλων του Netflix,κλπ) ή να ήταν κάτοικος της Κούβας, του Ιράν, της Συρίας, της Βόρειας Κορέας, της Βιρμανίας ή του Σουδάν.[1] Στις 21 Σεπτεμβρίου 2009, το μεγάλο βραβείο των US$ 1,000,000 (Δολαρίων ΗΠΑ) δόθηκε στην ομάδα BellKor's Pragmatic Chaos, η οποία βελτιστοποίησε τον υπάρχοντα αλγόριθμο του Netflix για πρόβλεψη αξιολογήσεων κατά 10.06%.[2]

Το Πρόβλημα και τα Σύνολα ΔεδομένωνΕπεξεργασία

Το Netflix παρείχε ένα σύνολο δεδομένων εκπαίδευσης (training data set) συνολικά 100.480.507 αξιολογήσεων οι οποίες είχαν γίνει από 480.189 χρήστες για 17.770 ταινίες. Κάθε εγγραφή του συνόλου δεδομένων εκπαίδευσης αποτελούνταν από μια τετράδα της μορφής <χρήστης, ταινία, ημερομηνία αξιολόγησης, βαθμός αξιολόγησης>. Τα πεδία του χρήστη και της ταινίας ήταν ακέραιοι αναγνωστικοί αριθμοί, ενώ οι αξιολογήσεις ήταν ακέραιοι αριθμοί εύρους 1-5 (αστέρια αξιολόγησης).[3]

Το σύνολο δεδομένων κατάταξης (qualifying data set) περιείχε περισσότερες από 2.817.131 εγγραφές σε μορφή τριάδας <χρήστης, ταινία, ημερομηνία αξιολόγησης>, με τις τιμές των αξιολογήσεων να είναι γνωστές μόνο στην επιτροπή αξιολόγησης. Για να συμμετάσχει μια ομάδα θα έπρεπε να προτείνει έναν αλγόριθμο ο οποίος θα προέβλεπε τις αξιολογήσεις για ολόκληρο το σύνολο δεδομένων κατάταξης, αλλά οι συμμετέχοντες θα είχαν μόνο πληροφόρηση για το αποτέλεσμα των μισών από τα δεδομένα, το σύνολο των ερωτημάτων (quiz set) αποτελούμενο από 1.408.342 αξιολογήσεις. Το άλλο μισό ήταν το σύνολο ελέγχου (test set) των 1.408.789 εγγραφών, επί του οποίου η επίδοση θα αποτελούσε τη βάση για να καθορίσει η επιτροπή τους πιθανούς νικητές του βραβείου. Μόνο η επιτροπή γνώριζε ποιες αξιολογήσεις βρίσκονταν στο σύνολο ερωτημάτων και ποιες βρίσκονταν στο σύνολο ελέγχου - αυτή η ρύθμιση είχε ως στόχο να καταστήσει δύσκολη την ανάβαση στο σύνολο ελέγχου.


Προβληματισμοί σχετικά με την ασφάλεια των προσωπικών δεδομένωνΕπεξεργασία

Αν και τα σύνολα δεδομένων έχουν κατασκευαστεί για να διατηρήσουμε το απόρρητο των πελατών, το βραβείο έχει επικριθεί από υποστηρικτές της προστασίας των δεδομένων. Το 2007, δύο ερευνητές από το Πανεπιστήμιο του Τέξας ήταν σε θέση να εντοπίσουν μεμονωμένους χρήστες από το ταίριασμα των συνόλων δεδομένων με τη βαθμολογία των ταινιών στο Internet Movie Database.

Στις 17 Δεκεμβρίου 2009, τέσσερις χρήστες Netflix κατέθεσαν αγωγή εναντίον του Netflix, ισχυριζόμενοι ότι το Netflix είχε παραβιάσει τους νόμους του εμπορίου και το Video Privacy Protection Act νόμο για την προστασία από την απελευθέρωση των συνόλων δεδομένων. Υπήρξε δημόσια συζήτηση σχετικά με το απόρρητο των συμμετεχόντων στην έρευνα. Στις 19 Μαρτίου 2010, το Netflix κατέληξε σε συμβιβασμό με τους ενάγοντες, οι οποίοι απέρριψαν την αγωγή εθελοντικά.

ΠαραπομπέςΕπεξεργασία

  1. «The Netflix Prize Rules». Αρχειοθετήθηκε από το πρωτότυπο στις 30 Μαρτίου 2014. Ανακτήθηκε στις 1 Απριλίου 2014. 
  2. «The Netflix Prize». Αρχειοθετήθηκε από το πρωτότυπο στις 24 Σεπτεμβρίου 2009. Ανακτήθηκε στις 9 Ιουλίου 2012. 
  3. James Bennett; Stan Lanning (August 12, 2007). «The Netflix Prize». Proceedings of KDD Cup and Workshop 2007. Αρχειοθετήθηκε από το πρωτότυπο στις 2007-09-27. https://web.archive.org/web/20070927051207/http://www.netflixprize.com/assets/NetflixPrizeKDD_to_appear.pdf. Ανακτήθηκε στις 2007-08-25. 

Εξωτερικοί ΣύνδεσμοιΕπεξεργασία

Επίσημη Ιστοσελίδα διαγωνισμού