InChI

Το InChI είναι ένα κειμενικό αναγνωριστικό για χημικές ουσίες, με πρότυπο τρόπο κωδικοποίησης μοριακών πληροφοριών, αναγνώσιμο από ανθρώπου

Το Διεθνές χημικό αναγνωριστικό IUPAC (IUPAC International Chemical Identifier) (InChI) είναι κειμενικό αναγνωριστικό για χημικές ουσίες, που σχεδιάστηκε για να δώσει έναν πρότυπο τρόπο κωδικοποίησης μοριακών πληροφοριών, που να είναι αναγνώσιμος από ανθρώπους και να διευκολύνει την αναζήτηση τέτοιων πληροφοριών σε βάσεις δεδομένων και στον ιστό. Αρχικά αναπτύχθηκε από την IUPAC και το Διεθνές ίδρυμα προτύπων και τεχνολογίας (National Institute of Standards and Technology) (NIST) κατά τη διάρκεια του 2000–2005, η μορφή και οι αλγόριθμοι δεν είναι ιδιοταγείς. Η συνεχιζόμενη ανάπτυξη του προτύπου έχει υποστηριχθεί από το 2010 από το μη κερδοσκοπικό ίδρυμα InChI Trust, που είναι μέλος της IUPAC. Η τρέχουσα έκδοση είναι η 1.04 και εκδόθηκε τον Σεπτέμβριο του 2011.

InChI
Γενικά
Διανομή
Έκδοση1.07.1 (21 Αύγουστος 2024)[1]
Λειτουργικά
Ανάπτυξη
ΠλατφόρμαIA-32 και x86-64
ΚατάστασηΕνεργή
Άδεια χρήσηςIUPAC / InChI Trust Licence
Σύνδεσμοι
Επίσημος ιστότοπος
https://www.inchi-trust.org/download-latest-inchi-standard-software/
Αποθετήριο κώδικα
https://github.com/IUPAC-InChI/InChI

Πριν την έκδοση 1.04, το λογισμικό ήταν ελύθερα διαθέσιμο κάτω από την άδεια ανοικτού κώδικα LGPL ,[2] αλλά τώρα χρησιμοποιεί μια προσαρμοσμένη άδεια, που λέγεται IUPAC-InChI Trust License.[3]

Επισκόπηση

Επεξεργασία

Τα αναγνωριστικά περιγράφουν χημικές ουσίες με όρους στρώσεων πληροφοριών — για τα άτομα και τον τρόπο σύνδεσης των δεσμών, για την ταυτομέρεια, για τα ισότοπα, για τη στερεοχημεία και για το ηλεκτρικό φορτίο. Δεν είναι αναγκαίο να παρέχονται όλες οι στρώσεις· παραδείγματος χάρη, η στρώση ταυτομέρειας μπορεί να παραληφθεί αν αυτός ο τύπος πληροφοριών δεν είναι σχετικός με τη συγκεκριμένη εφαρμογή.

Τα InChIs διαφέρουν από τους ευρέως χρησιμοποιούμενους αριθμούς CAS σε τρεις όψεις:

  • είναι ελεύθερα χρησιμοποιήσιμοι και μη ιδιοταγείς·
  • μπορούν να υπολογιστούν από δομικές πληροφορίες και δεν πρέπει να εκχωρηθούν από κάποιον οργανισμό·
  • οι περισσότερες πληροφορίες σε ένα InChI διαβάζονται από τους ανθρώπους (με εξάσκηση).

Τα InChIs μπορούν συνεπώς να ιδωθούν ως παρόμοια με μια γενική και ιδιαίτερα τυποποιημένη έκδοση ονομάτων IUPAC. Μπορούν να εκφράσουν περισσότερες πληροφορίες από την πιο απλή σημειογραφία SMILES και διαφέρουν στο ότι κάθε δομή έχει μια μοναδική συμβολοσειρά InChI, που είναι σημαντική στις εφαρμογές βάσεων δεδομένων. Πληροφορίες για τις τρισδιάστατες συντεταγμένες των ατόμων δεν εμφανίζονται στο InChI· για αυτόν τον σκοπό μια μορφή όπως μια μορφή αρχείου τράπεζας δεδομένων των πρωτεϊνών (PDB) μπορεί να χρησιμοποιηθεί.

Ο αλγόριθμος InChI μετατρέπει τις εισαγόμενες δομικές πληροφορίες σε ένα μοναδικό αναγνωριστικό InChI με μια διαδικασία τριών βημάτων: ομαλοποίηση (για αφαίρεση περιττών πληροφοριών), κανονικοποίηση (για τη δημιουργία μιας μοναδικής ετικέτας αριθμού για κάθε άτομο) και σειριοποίηση (για τη παραγωγή μιας συμβολοσειράς χαρακτήρων).

Το InChIKey, που μερικές φορές αναφέρεται ως κατακερματισμένο InChI, είναι σταθερό μήκος (25 χαρακτήρων) συμπυκνωμένης ψηφιακής αναπαράστασης του InChI που δεν κατανοείται από τους ανθρώπους. Η προδιαγραφή του InChIKey εκδόθηκε τον Σεπτέμβριο του 2007 για να διευκολύνει τις διαδικτυακές αναζητήσεις για χημικές ενώσεις, επειδή αυτές ήταν προβληματικές με το πλήρες μήκος InChI.[4] Θα πρέπει να σημειωθεί ότι, αντίθετα με το InChI, το InChIKey δεν είναι μοναδικό: αν και συγκρούσεις συμβαίνουν σπάνια, υπάρχουν.[5]

Τον Ιανουάριο του 2009 εκδόθηκε η τελική έκδοση 1.02 του λογισμικού InChI. Αυτή παρέχει ένα μέσο δημιουργίας του λεγόμενου προτύπου InChI, που δεν επιτρέπει στον χρήστη επιλέξιμες προτιμήσεις στην αντιμετώπιση των στερεοχημικών και ταυτομερικών στρώσεων της συμβολοσειράς InChI. Το πρότυπο InChIKey είναι η κατακερματισμένη έκδοση της τυπικής συμβολοσειράς InChI. Το τυπικό InChI απλοποιεί τη σύγκριση των συμβολοσειρών InChI και των δημιουργούμενων κλειδιών από διαφορετικές ομάδες και συνεπώς μπορούν να προσπελαστούν μέσα από διάφορες πηγές όπως βάσεις δεδομένων και διαδικτυακές πηγές.

Μορφές και στρώσεις

Επεξεργασία
Μορφή InChI
Τύπος διαδικτυακού μέσουchemical/x-inchi
Τύπος φορμάχημική μορφή αρχείου

Κάθε InChI ξεκινά με τη συμβολοσειρά "InChI=" ακολουθούμενη από τον αριθμό της έκδοσης, προς το παρόν 1. Αυτός ακολουθείται από το γράμμα S για το πρότυπο InChIs. Οι εναπομένουσες πληροφορίες δομούνται ως μια σειρά στρώσεων και υποστρώσεων, με κάθε στρώση να παρέχει έναν συγκεκριμένο τύπο πληροφορίας. Οι στρώσεις και οι υποστρώσεις διαχωρίζονται από τον οριοθέτη "/" και αρχίζουν με ένα χαρακτηριστικό γράμμα προθήματος (εκτός από τον χημικό τύπο υποστρώσης της κύριας στρώσης). Οι έξι στρώσεις με σημαντικές υποστρώσεις είναι:

  1. Η κύρια στρώση
    • Ο χημικός τύπος (χωρίς πρόθημα). Αυτή είναι η μόνη υποστρώση που πρέπει να υπάρχει σε κάθε InChI.
    • Οι συνδέσεις του ατόμου (πρόθημα: "c"). Τα άτομα στον χημικό τύπο (εκτός από τα υδρογόνα) αριθμούνται με τη σειρά· αυτή η υποστρώση περιγράφει ποια άτομα συνδέονται με δεσμούς και με ποια άλλα.
    • Άτομα υδρογόνου (πρόθημα: "h"). Περιγράφει πόσα άτομα υδρογόνου συνδέονται με καθένα από τα άλλα άτομα.
  2. Στρώση φορτίου
    • υποστρώση πρωτονίων (πρόθημα: "p" για τα "πρωτόνια")
    • υποστοιβάδα φορτίου (πρόθημα: "q")
  3. Στερεοχημική στρώση
    • διπλοί δεσμοί και κουμουλένια (πρόθημα: "b")
    • τετραεδρική στερεοχημεία των ατόμων και αλλένια (προθήματα: "t", "m")
    • τύπος στερεοχημικών πληροφοριών (πρόθημα: "s")
  4. ισοτοπική στρώση (προθήματα: "i", "h", καθώς και "b", "t", "m", "s" για την ισοτοπική στερεοχημεία)
  5. Στρώση Fixed-Η (πρόθημα: "f")· περιέχει μερικούς ή όλους τους παραπάνω τύπους στρώσεων εκτός από τις συνδέσεις ατόμων· μπορεί να τελειώνει με υποστρώση "o"· δεν συμπεριλαμβάνεται ποτέ στο τυπικό InChI
  6. Επανασυνδεμένη στρώση (prefix: "r"); περιέχει το συνολικό InChI μιας δομής με επανασυνδεμένα άτομα μετάλλων· δεν συμπεριλαμβάνεται ποτέ στο τυπικό InChI

Η μορφή προθήματος οριοθέτη έχει το πλεονέκτημα ότι ο χρήστης μπορεί εύκολα να χρησιμοποιήσει έναν χαρακτήρα υποκατάστασης (Wildcard character) αναζήτησης για να βρει αναγνωριστικά που ταιριάζουν μόνο σε συγκεκριμένες στρώσεις.

Παραδείγματα

Επεξεργασία
CH3CH2OH
αιθανόλη
InChI=1/C2H6O/c1-2-3/h3H,2H2,1H3

InChI=1S/C2H6O/c1-2-3/h3H,2H2,1H3 (πρότυπο InChI)

 
L-ασκορβικό οξύ
InChI=1/C6H8O6/c7-1-2(8)5-3(9)4(10)6(11)12-5/h2,5,7-10H,1H2/t2-,5+/m0/s1

InChI=1S/C6H8O6/c7-1-2(8)5-3(9)4(10)6(11)12-5/h2,5,7-8,10-11H,1H2/t2-,5+/m0/s1 (πρότυπο InChI)

 
Δομή μορφίνης

Το συνεπτυγμένο, τυπικό InChIKey με 27 χαρακτήρες είναι μια έκδοση συνάρτησης κατακερματισμού του πλήρους προτύπου InChI (χρησιμοποιώντας τον αλγόριθμο SHA-256), που σχεδιάστηκε για να επιτρέπει εύκολες διαδικτυακές αναζητήσεις χημικών ενώσεων.[4] Οι περισσότερες χημικές δομές στον ιστό μέχρι το 2007 έχουν αναπαρασταθεί ως αρχεία GIF, που δεν αναζητήσιμες για χημικό περιεχόμενο. Το πλήρες InChI αποδείχτηκε ότι είναι υπερβολικά μακρύ για εύκολη αναζήτηση και ως αποτέλεσμα αναπτύχθηκε το InChIKey. Υπάρχει μια πολλή μικρή, αλλά όχι μηδενική πιθανότητα δύο διαφορετικά μόρια να έχουν το ίδιο InChIKey, αλλά η πιθανότητα διπλότυπου από μόνο τους πρώτους 14 χαρακτήρες έχει εκτιμηθεί ως μόνο ένα διπλότυπο σε 75 βάσεις δεδομένων που η καθεμιά τους περιέχει ένα δισεκατομμύριο μοναδικές δομές. Με όλες τις βάσεις δεδομένων να έχουν μέχρι τώρα κάτω από 50 εκατομμύρια δομές, ένα τέτοιο διπλότυπο φαίνεται απίθανο προς το παρόν. Μια πρόσφατη πιο εκτεταμένη έρευνα που μελετά την εύρεση του ρυθμού συγκρούσεων βρήκε ότι ο πειραματικός ρυθμός σύγκρουσης είναι σε συμφωνία με τα θεωρητικά αναμενόμενα.[6]

Τα InChIKeys αποτελούνται από 14 χαρακτήρες ως αποτέλεσμα ενός κατακερματισμού των πληροφοριών σύνδεσης του InChI, ακολουθούμενα από ένα ενωτικό, από 9 χαρακτήρες ως αποτέλεσμα ενός κατακερματισμού των υπολειπόμενων στρώσεων του InChI, από έναν απλό χαρακτήρα που δείχνει την χρησιμοποιούμενη έκδοση του InChI, από ένα άλλο ενωτικό, από έναν μοναδικό χαρακτήρα αθροίσματος ελέγχου.

Παράδειγμα: Η μορφίνη έχει τη δομή που εμφανίζεται στα δεξιά. Το πρότυπο InChI για τη μορφίνη είναι InChI=1S/C17H19NO3/c1-18-7-6-17-10-3-5-13(20)16(17)21-15-12(19)4-2-9(14(15)17)8-11(10)18/h2-5,10-11,13,16,19-20H,6-8H2,1H3/t10-,11+,13-,16-,17-/m0/s1 και το πρότυπο InChIKey για τη μορφίνη είναι BQJCRHHNABKAKU-KBQPJGBKSA-N.[7]

Επιλυτές InChI

Επεξεργασία

Επειδή το InChI δεν μπορεί να ανακατασκευαστεί από το InChIKey, ένα InChIKey χρειάζεται πάντα να συνδεθεί με το αρχικό InChI για να επιστραφεί η αρχική δομή. Οι επιλυτές InChI δρουν ως υπηρεσία αναζήτησης για να κάνει αυτούς τους συνδέσμους και οι υπηρεσίες πρωτοτύπου είναι διαθέσιμες από τα NCI, PubChem και ChemSpider

Η μορφή αρχικά ονομάστηκε IChI (Χημικό αναγνωριστικό IUPAC - IUPAC Chemical Identifier), έπειτα μετονομάστηκε τον Ιούλιο του 2004 σε INChI (Χημικό αναγνωριστικό IUPAC-NIST - IUPAC-NIST Chemical Identifier) και μετονομάστηκε ξανά σε τον Νοέμβριο του 2004 σε InChI (Διεθνές χημικό αναγνωριστικό IUPAC - IUPAC International Chemical Identifier), ένα σήμα κατατεθέν της IUPAC.

Συνεχιζόμενη ανάπτυξη

Επεξεργασία

Η επιστημονική κατεύθυνση του προτύπου InChI εκτελείται από την IUPAC και η χρηματοδότηση των υποομάδων έρευνας καθώς και ο ορισμός της επέκτασης του προτύπου εκτελείται από τους IUPAC και InChI Trust. Η InChI Trust χρηματοδοτεί την ανάπτυξη, δοκιμή και τεκμηρίωση του InChI. Οι τρέχουσες επεκτάσεις ορίζονται για να επεξεργάζονται πολυμερή και μείγματα, δομές Μάρκους (Markush structure), αντιδράσεις και οργανομεταλλικά και όταν γίνουν αποδεκτά θα προστεθούν στον αλγόριθμο.

Το InChI έχει γίνει αποδεκτό από πολλές μεγαλύτερες και μικρότερες βάσεις δεδομένων, συμπεριλαμβανομένων των ChemSpider και PubChem. Όμως, η αποδοχή δεν είναι ξεκάθαρη και πολλές βάσεις δεδομένων εμφανίζουν μια διαφορά μεταξύ των χημικών δομών και του περιεχόμενου InChI, που είναι ένα πρόβλημα για τη σύνδεση βάσεων δεδομένων.[8]

Δείτε επίσης

Επεξεργασία

Σημειώσεις και παραπομπές

Επεξεργασία
  1. «Release 1.07.1». 21 Αύγουστος 2024. Ανακτήθηκε στις 31 Αύγουστος 2024. 
  2. McNaught, Alan (2006). «The IUPAC International Chemical Identifier:InChl». Chemistry International (IUPAC) 28 (6). http://www.iupac.org/publications/ci/2006/2806/4_tools.html. Ανακτήθηκε στις 2007-09-18. 
  3. http://www.inchi-trust.org/download/104/LICENCE.pdf
  4. 4,0 4,1 «The IUPAC International Chemical Identifier (InChI)». IUPAC. 5 Σεπτεμβρίου 2007. Αρχειοθετήθηκε από το πρωτότυπο στις 30 Οκτωβρίου 2007. Ανακτήθηκε στις 18 Σεπτεμβρίου 2007. 
  5. E.L. Willighagen (17 Σεπτεμβρίου 2011). «InChIKey collision: the DIY copy/pastables». Ανακτήθηκε στις 6 Νοεμβρίου 2012. 

  6. «InChI=1/C17H19NO3/c1-18...». Chemspider. Ανακτήθηκε στις 18 Σεπτεμβρίου 2007. 

Εξωτερικοί σύνδεσμοι

Επεξεργασία

Τεκμηρίωση και παρουσιάσεις

Επεξεργασία

Λογισμικό και υπηρεσίες

Επεξεργασία
  • NCI/CADD Chemical Identifier Resolver Δημιουργεί και επιλύει InChI/InChIKeys και πολλά άλλα χημικά αναγνωριστικά
  • ChemSpider InChI resolver
  • Search Google for molecules (δημιουργεί InChI από διαδραστικά χημικά και αναζητεί στην Google για οποιαδήποτε σελίδα με ενσωματωμένα InChIs). Απαιτεί ενεργό Javascript στον περιηγητή
  • ChemSketch Αρχειοθετήθηκε 2006-10-18 στο Wayback Machine., ελεύθερο πακέτο σχεδίασης χημικής δομής που περιλαμβάνει εισαγωγή και εξαγωγή σε μορφή InCHI
  • PubChem online molecule editor που υποστηρίζει SMILES/SMARTS και InChI
  • ChemSpider Services που επιτρέπει τη δημιουργία InChI και μετατροπή του InChI σε δομή (επίσης σε SMILES και δημιουργία άλλων ιδιοτήτων)
  • MarvinSketch από την ChemAxon, υλοποίηση της σχεδίασης δομών (ή άνοιγμα άλλων μορφών αρχείων) και εξαγωγή σε μορφή αρχείου InChI
  • BKchem Αρχειοθετήθηκε 2007-06-09 στο Wayback Machine. υλοποιεί τον δικό του αναλυτή InChI και χρησιμοποιεί την εφαρμογή IUPAC για τη δημιουργία συμβολοσειρών InChI
  • CompoundSearch υλοποιεί αναζήτηση InChI και InChI Key φασματικών βιβλιοθηκών
  • JNI-InChI βιβλιοθήκη Java που πακετάρει τη βιβλιοθήκη InChI
  • Το Chemistry Development Kit χρησιμοποιεί JNI-InChI για να δημιουργήσει InChIs, μπορεί να μετατρέψει InChIs σε δομές και δημιουργεί ταυτομερή με βάση τους αλγόριθμους InChI
  • Το Bioclipse δημιουργεί InChI και InChIKeys για σχεδιασμένες δομές ή ανοικτά αρχεία