Απλό κείμενο: Διαφορά μεταξύ των αναθεωρήσεων

Περιεχόμενο που διαγράφηκε Περιεχόμενο που προστέθηκε
μ Ρομπότ: Αλλαγή Κατηγορία:Επιστήμη υπολογιστών σε Κατηγορία:Πληροφορική
Γραμμή 18:
=== Κωδικοποιήσεις χαρακτήρων ===
{{κύριο|Κωδικοποίηση χαρακτήρων}}
ΠαλαιότεραΑρχικά το κείμενο συχνά κωδικοποιούνταν σε [[ASCII]], χρησιμοποιώντας 8 [[bit]]s για ένα γράμμα ή άλλο χαρακτήρα, κωδικοποιώντας τα 7 bits ώστε να επιτρέπει 128 τιμές, και χρησιμοποιώντας το 8ο σαν bit αθροίσματος ελέγχου (checksum) κατά τη μεταφορά ενός αρχείου. Αυτό επέτρεπε το απλό λατινικό αλφάβητο, κωδικούς ελέγχου, παρενθέσεις και σημεία στίξης.
 
Όταν τα δεδομένα που μεταφέρονταν απέκτησαν πιο σταθερή μορφή, το 8ο bit σταμάτησε να χρησιμοποιείται σαν άθροισμα ελέγχου και χρησιμοποιήθηκε για την επέκταση του συνόλου των χαρακτήρων κατά άλλους 128 χαρακτήρες. - αυτοίΑυτοί οι μη-πρότυποπρότυποι χαρακτήρες κωδικοποιούνταν με διαφορετικό τρόπο σε κάθε χώρα, κατά τρόπο που έκανε αδύνατη την κωδικοποίηση πολυγλωσσικών κειμένων. Για παράδειγμα, ένας φυλλομετρητής μπορούσε να εμφανίσει το '''¬A''' σαν '''`''' αν χρησιμοποιούσε ένα σύνολο χαρακτήρων στη θέση άλλου. Επίσης, πολλές φορές, κωδικοποιούνταν και με διαφορετικό τρόπο στην ίδια χώρα (για παράδειγμα στην Ελλάδα έχουν χρησιμοποιηθεί, μεταξύ άλλων, οι κωδικοποιήσεις IBM 437 με ελληνικά, ΕΛΟΤ 928, windows-1253 κ.α.).
 
Όταν ένα πρόγραμμα θέλει να διαβάσει ή να επεξεργαστεί απλά κείμενα, γραμμένα σε αυτή τη μορφή, θα πρέπει να γνωρίζει την κωδικοποίηση που χρησιμοποιήθηκε για να γραφτούν. Κάποια προγράμματα, χρησιμοποιώντας διάφορες τεχνικές και αλγορίθμους, μερικές φορές κατορθώνουν να αντιληφθούν την κωδικοποίηση, αλλά όχι πάντα. Σε αυτήν την περίπτωση ο χρήστης συνήθως θα πρέπει να ξανανοίξει το αρχείο επιλέγοντας από πριν την κωδικοποίηση που πιστεύει ότι έχει χρησιμοποιηθεί (εφόσον το πρόγραμμα υποστηρίζει αυτή τη λειτουργία). Για παράδειγμα ένα αρχείο CSV (που μπορεί να ανοιχτεί με πρόγραμμα επεξεργασίας λογιστικών φύλλων) ή INI ή SRT (που μπορεί να ανοιχτεί με πρόγραμμα επεξεργασίας υπότιτλων ή από πρόγραμμα προβολής ταινιών) θα μπορούσε να έχει δημιουργηθεί από κάποιον που έχει γαλλικά στον υπολογιστή του. Σε αυτήν την περίπτωση το πιθανότερο είναι ότι οι χαρακτήρες πάνω από τη θέση 127 θα περιέχουν γαλλικό κείμενο και η ανάγνωσή του σε υπολογιστή με ελληνικά θα εμφανίζει "αλαμπουρνέζικα". Μερικά προγράμματα, όταν αντιλαμβάνονται ότι πρόκειται για απλό αρχείο κειμένου με κωδικοποίηση 8 bit, ζητάνε από το χρήστη να ορίσει την κωδικοποίηση στην οποία είναι γραμμένο το κείμενο.
Τελικά ορίστηκε το [[Unicode]], το οποίο σήμερα επιτρέπει 1,114,112 κωδικούς που μπορούν να χρησιμοποιηθούν για οποιοδήποτε σύγχρονο σύστημα γραφής, καθώς και για πολλά νεκρά συστήματα γραφής, και είναι ευρέως διαδεδομένο. Για παράδειγμα, το Unicode, εκτός από τους λατινικούς χαρακτήρες, κωδικοποιεί τους χαρακτήρες της Κινεζικής, της Εβραϊκής, της Κυριλλικής.
 
Τελικά ορίστηκεεμφανίστηκε το [[Unicode]], το οποίο σήμερα επιτρέπει 1,.114,.112 κωδικούς που μπορούν να χρησιμοποιηθούν για οποιοδήποτε σύγχρονο σύστημα γραφής, καθώς και για πολλά νεκρά συστήματα γραφής, και είναι ευρέως διαδεδομένο. Για παράδειγμα, το Unicode, εκτός από τους λατινικούς χαρακτήρες, κωδικοποιεί τους χαρακτήρες της Κινεζικής, της Εβραϊκής, της Κυριλλικής.
 
Τα προβλήματα δεν εξαλείφθηκαν καθώς οι μορφές UCS-2 και UTF-16 του Unicode χρησιμοποίησαν την προσθήκη ενός byte order mark (BOM) στην αρχή του κειμένου, το οποίο πολλοί ενσωμάτωσαν και σε κείμενα με άλλες μορφές Unicode, με αποτέλεσμα να "μπερδεύονται" πολλά προγράμματα.
 
=== Κωδικοί ελέγχου ===