Βραβείο Netflix: Διαφορά μεταξύ των αναθεωρήσεων

Περιεχόμενο που διαγράφηκε Περιεχόμενο που προστέθηκε
Γραμμή 5:
== Το Πρόβλημα και τα Σύνολα Δεδομένων ==
 
Το Netflix παρείχε ένα σύνολο δεδομένων εκπαίδευσης (training data set) συνολικά 100.480.507 αξιολογήσεων οι οποίες είχαν γίνει από 480.189 χρήστες για 17.770 ταινίες. Κάθε εγγραφή του συνόλου δεδομένων εκπαίδευσης αποτελούνταν από μια τετράδα της μορφής <χρήστης, ταινία, ημερομηνία αξιολόγησης, βαθμός αξιολόγησης>. Τα πεδία του χρήστη και της ταινίας ήταν ακέραιοι αναγγνωστικοίαναγνωστικοί αριθμοί, ενώ οι αξιολογήσεις ήταν ακέραιοι αριμοίαριθμοί εύρους 1-5 (αστέρια αξιολόγησης).
 
Το σύνολο δεδομένων κατάταξης (qualifying data set) περιείχε περισσότερες από 2.817.131 εγγραφές σε μορφή τριάδας <χρήστης, ταινία, ημερομηνία αξιολόγησης>, με τις τιμές των αξιολογήσεων να είναι γνωστές μόνο στην επιτροπή αξιολόγησης. Για να συμμετάσχει μια ομάδα θα έπρεπε να προτείνει έναν αλγόριθμο ο οποίος θα προέβλεπε τις αξιολογήσεις για ολόκληρο το σύνολο δεδομένων κατάταξης, αλλά οι συμμετέχοντες θα είχαν μόνο πληροφόρηση για το αποτέλεσμα των μισών από τα δεδομένα, το σύνολο των ερωτημάτων (quiz set) αποτελούμενο από 1.408.342 αξιολογήσεις. Το άλλο μισό ήταν το σύνολο ελέγχου (test set) των 1.408.789 εγγραφών, στουεπί του οποίου η επίδοση θα αποτελούσε τη βάση για να καθορίσει η επιτροπή τους πιθανούς νικητές του βραβείου. Μόνο η επιτροπή γνώριζε ποιές αξιολογήσεις βρίσκονταν στο σύνολο ερωτημάτων και ποιές βρίσκονταν στο σύνολο ελέγχου - αυτή η ρύθμιση είχε ως στόχο να καταστήσει δύσκολη την ανάβαση στο σύνολο ελέγχου.
 
== Εξωτερικοί Σύνδεσμοι ==