Απλό κείμενο: Διαφορά μεταξύ των αναθεωρήσεων
Περιεχόμενο που διαγράφηκε Περιεχόμενο που προστέθηκε
μ Ρομπότ: Αλλαγή Κατηγορία:Επιστήμη υπολογιστών σε Κατηγορία:Πληροφορική |
|||
Γραμμή 18:
=== Κωδικοποιήσεις χαρακτήρων ===
{{κύριο|Κωδικοποίηση χαρακτήρων}}
Όταν τα δεδομένα που μεταφέρονταν απέκτησαν πιο σταθερή μορφή, το 8ο bit σταμάτησε να χρησιμοποιείται σαν άθροισμα ελέγχου και χρησιμοποιήθηκε για την επέκταση του συνόλου των χαρακτήρων κατά άλλους 128 χαρακτήρες.
Όταν ένα πρόγραμμα θέλει να διαβάσει ή να επεξεργαστεί απλά κείμενα, γραμμένα σε αυτή τη μορφή, θα πρέπει να γνωρίζει την κωδικοποίηση που χρησιμοποιήθηκε για να γραφτούν. Κάποια προγράμματα, χρησιμοποιώντας διάφορες τεχνικές και αλγορίθμους, μερικές φορές κατορθώνουν να αντιληφθούν την κωδικοποίηση, αλλά όχι πάντα. Σε αυτήν την περίπτωση ο χρήστης συνήθως θα πρέπει να ξανανοίξει το αρχείο επιλέγοντας από πριν την κωδικοποίηση που πιστεύει ότι έχει χρησιμοποιηθεί (εφόσον το πρόγραμμα υποστηρίζει αυτή τη λειτουργία). Για παράδειγμα ένα αρχείο CSV (που μπορεί να ανοιχτεί με πρόγραμμα επεξεργασίας λογιστικών φύλλων) ή INI ή SRT (που μπορεί να ανοιχτεί με πρόγραμμα επεξεργασίας υπότιτλων ή από πρόγραμμα προβολής ταινιών) θα μπορούσε να έχει δημιουργηθεί από κάποιον που έχει γαλλικά στον υπολογιστή του. Σε αυτήν την περίπτωση το πιθανότερο είναι ότι οι χαρακτήρες πάνω από τη θέση 127 θα περιέχουν γαλλικό κείμενο και η ανάγνωσή του σε υπολογιστή με ελληνικά θα εμφανίζει "αλαμπουρνέζικα". Μερικά προγράμματα, όταν αντιλαμβάνονται ότι πρόκειται για απλό αρχείο κειμένου με κωδικοποίηση 8 bit, ζητάνε από το χρήστη να ορίσει την κωδικοποίηση στην οποία είναι γραμμένο το κείμενο.
Τελικά ορίστηκε το [[Unicode]], το οποίο σήμερα επιτρέπει 1,114,112 κωδικούς που μπορούν να χρησιμοποιηθούν για οποιοδήποτε σύγχρονο σύστημα γραφής, καθώς και για πολλά νεκρά συστήματα γραφής, και είναι ευρέως διαδεδομένο. Για παράδειγμα, το Unicode, εκτός από τους λατινικούς χαρακτήρες, κωδικοποιεί τους χαρακτήρες της Κινεζικής, της Εβραϊκής, της Κυριλλικής.▼
▲Τελικά
Τα προβλήματα δεν εξαλείφθηκαν καθώς οι μορφές UCS-2 και UTF-16 του Unicode χρησιμοποίησαν την προσθήκη ενός byte order mark (BOM) στην αρχή του κειμένου, το οποίο πολλοί ενσωμάτωσαν και σε κείμενα με άλλες μορφές Unicode, με αποτέλεσμα να "μπερδεύονται" πολλά προγράμματα.
=== Κωδικοί ελέγχου ===
|