Οντολογία Γονιδίων

βιοϊατρική οντολογία

Οντολογία Γονιδίων (Gene Ontology-GO,[1]) είναι μια οντολογία που περιέχει πληροφορίες σχετικά με γονίδια, τις λειτουργίες και τις σχέσεις μεταξύ τους με ένα δομημένο τρόπο. Τα δύο κύρια συστατικά της GO είναι η οντολογία αυτή καθ’αυτή (Ontology) που περιέχει τους όρους (terms) που περιγράφουν την λειτουργία των γονιδίων (gene function) και οι αντίστοιχες υποσημειώσεις (annotations). Στην τελευταία έκδοση (2019) είναι καταχωρημένοι 44.945 όροι (GO terms), 6.408.283 GO annotations, ενώ αφορούν 1.155.213 γονιδιακά προϊόντα 4.467 ειδών.[2][3]

Περιεχόμενο
ΠεριγραφήΒιολογική βάση δεδομένων
ΑντικείμενοΠόρος με ελεγχόμενο λεξιλόγιο για την περιγραφή της λειτουργίας των γονιδίων
Επαφή
Πρόσβαση
Ιστοσελίδαgeneontology.org
Εργαλεία
Διάφορα

Εισαγωγικά Στοιχεία Επεξεργασία

Το GO (gene ontology) αποτελεί το κύημα της μεγαλύτερης προσπάθειας στο πεδίο της βιοπληροφορικής μέχρι στιγμής, όσον αφορά σε βάσεις δεδομένων γονιδιακής πληροφορίας, που σχεδιάστηκε με απώτερο σκοπό την αποσαφήνιση σύνθετων βιολογικών ερωτημάτων. Πρόκειται για μια αυτοτελή βιοπληροφορική πλατφόρμα που προσπαθεί να συσχετίσει εννοιολογικά, διάφορα επιμέρους βιολογικά στοιχεία, χρησιμοποιώντας κωδικοποιημένο λεξιλόγιο. Η μεγαλύτερη δυσκολία που καλούνται να αντιμετωπίσουν οι χρήστες του είναι η επισκόπηση της ευστάθειας τόσο των υπαρχόντων δεδομένων, όσο και των προστιθέμενων, καθώς επίσης και η ανάγκη της συνεχούς αναδιάρθρωσης και επαναξιολόγησης των υποσημειώσεων (annotations) ούτως ώστε να ικανοποιούν τα κριτήρια της σωστής λειτουργίας της πλατφόρμας.[4] Η ανάγκη αυτή γίνεται ακόμη πιο επιτακτική αν αναλογιστεί κανείς ότι η αύξηση του όγκου των διάφορων βιολογικών δεδομένων συμβαίνει με τρόπο ιλιγγιώδη, αλλά και απρόβλεπτο. Με το πέρασμα του χρόνου έχουν αναπτυχθεί πιο ευαίσθητοι αλγόριθμοι για τον έλεγχο της ποιότητας των επιμέρους στοιχείων των δεδομένων που καταχωρούνται.[5]

Η μεγάλη καινοτομία του GO έγκειται στη χρήση ειδικού λεξιλογίου, το οποίο επιτρέπει τόσο την εξειδικευμένη πλοήγηση στις βάσεις δεδομένων που φιλοξενεί, αλλά και την άνθιση ενός πληθωρικού πληροφοριακά συστήματος δικτύου, που δίνει τη δυνατότητα στους βιολόγους να οπτικοποιήσουν και να ποσοτικοποιήσουν πληθώρα διαφορετικών κυτταρικών διεργασιών. Το μεγάλο πλεονέκτημα της GO σε σχέση με τα προϋπάρχοντα προγράμματα βιοπληροφορικής είναι το φιλικό στο χρήστη και παράλληλα παραγωγικό λεξιλόγιο που θα τον διευκολύνει. Μια επίσης καίρια εξέλιξη είναι η δημιουργία λεξιλογίου που συνδέει διαφορετικά είδη οργανισμών μεταξύ τους, επιτρέποντας τη συσχέτιση των κοινών βιολογικών όρων που συναντώνται στους οργανισμούς αυτούς. [5][3]

Ιστορικά Στοιχεία Επεξεργασία

Η σύλληψη του Gene Ontology σαν ιδέα, έλαβε χώρα το 1998, όταν ένα σύνολο επιστημόνων της βιολογίας με διαφορετικά υπόβαθρα και ενδιαφέροντα, αποφάσισαν πως η σύνδεση των επιμέρους ερευνών τους με ένα σύστημα εύστοχων βιοπληροφορικών συνδέσεων θα μπορούσε να αποτελέσει το εκμαγείο για μια ευρέως χρησιμοποιούμενη εφαρμογή στο χώρο της γενετικής και όχι μόνο. Οι ερευνητές παρέθεσαν μια σειρά στοιχείων και επιχειρημάτων για να υποστηρίξουν την ιδέα τους αυτή, με κεντρικό άξονα την ανάγκη εκσυγχρονισμού της ταχέως αναπτυσσόμενης βιολογίας από την εποχή που οι Watson και Crick ανακάλυψαν τη δομή του DNA. Ο επικεφαλής αυτού του εγχειρήματος ήταν ο βιολόγος Michael Ashburner.[6] Η ιδέα αρχικά περιελάμβανε προοπτικές μόνο για οργανισμούς μοντέλα, των οποίων το γονιδίωμα είχε αλληλουχηθεί πλήρως, ενώ δε θα διέθετε καθόλου προκαρυωτικούς οργανισμούς κατά το πρώτο στάδιο λειτουργίας. Στο παρελθόν είχε γίνει παρόμοια απόπειρα κατηγοριοποίησης των λειτουργιών διαφορετικών ευκαρυωτικών ενζύμων, ποτέ όμως δεν είχε επιχειρηθεί ένα τόσο μεγάλο πόνημα σαν αυτήν την προσπάθεια. Η ιδέα του Ashburner ήταν η εξής: ένα σύστημα βιοπληροφορικής το οποίο θα χρησιμοποιούσε ευέλικτο και κατανοητό λεξιλόγιο που θα συνδέει διαφορετικούς οργανισμούς μοντέλα με την αναζήτηση στοιχείων γι' αυτά μέσω της αναγνώρισης ειδικών υποσημειώσεων (annotations).[5] Έτσι αρχικά συμπεριλήφθηκαν ο οργανισμοί Drosophila melanogaster (φρουτόμυγα), Mus musculus (ποντίκι) και Saccharomyces cerevisiae (ζύμη).

Η ιδέα παρουσιάστηκε για πρώτη φορά τον Ιούλιο της ίδιας χρονιάς από τον Ashburner στο "Διεθνές Συμβούλιο Έξυπνων Συστημάτων Μοριακής Βιολογίας" που διεξήχθη στο Montreal του Καναδά (ISBM) και υπερθεμάτιζε την ανάγκη για ανάπτυξη ενός προγράμματος έξυπνου λεξιλογίου με ιεραρχικό χαρακτήρα, το οποίο θα προάγει τη βελτίωση της βιολογικής έρευνας. Αρχικά, θεωρήθηκε αφελής σαν ιδέα και αποπέμφθηκε από το συμβούλιο.[6] Λίγο αργότερα όμως με τη συμβολή και άλλων τριών επιστημόνων, των Steve Chervitz, Judith Blake και Suzanna E Lewis, και με ορισμένες μικρές τροποποιήσεις στο αρχικό πλάνο, η ιδέα τελικά έγινε δεκτή. Έξι χρόνια αργότερα, οι βάσεις δεδομένων και οι αντίστοιχες υποσημειώσεις, αυξήθηκαν κατά εκατό φορές περίπου, ενώ κατέστη δυνατή και η ενσωμάτωση δεδομένων για προκαρυώτες. Πλέον η GO διαθέτει από το 2004 τη γνωστή μορφή που έχει και σήμερα με τροποποιήσεις ανά τακτά χρονικά διαστήματα. Το 2007 έγινε η εισαγωγή ενός σετ αυστηρότερων κριτηρίων στην εισαγωγή υποσημειώσεων (annotations) και δεδομένων [6][5] με αποτέλεσμα να υπάρχουν δύο μορφές της GO το "filtered" και το "unfiltered" ανάλογα με το βαθμό "φιλτραρίσματος" και την ανοχή σε μικρές αποκλίσεις των δεδομένων από τα πραγματικά.

Προβλήματα Επεξεργασία

Ωστόσο η GO δεν αποτελεί πανάκεια καθώς αντιμετωπίζει μια σειρά προβλημάτων και ασταθειών που συνεπάγονται του μεταβλητού χαρακτήρα της. Πιο ενδελεχώς, όπως αναφέρθηκε το βασικό ζήτημα που έχει να αντιμετωπίσει το σύστημα είναι η αθρόα εισαγωγή νέων δεδομένων καθώς επίσης και η διατήρηση και διεύρυνση του ήδη υπάρχοντος λεξιλογίου ούτως ώστε να πληρούνται τα στοιχεία ποιότητας και ακεραιότητας των υπηρεσιών που προσφέρει. Αυτά τα προβλήματα χαρακτηρίζονται ως μεταβολές οντολογίας (ontology shifts) και συνοψίζονται στις εξής κατηγορίες:

1) Μεταβολές οντολογίας που σχετίζονται  με την εισαγωγή νέων δεδομένων, το οποίο ίσως και να είναι το πιο σημαντικό από όλα τα είδη λόγω του τεράστιου όγκου νέων δεδομένων που πρέπει να αξιολογηθούν για την εγκυρότητα τους.

2) Μεταβολές οντολογίας που αφορούν στην ανάπτυξη νέου λεξιλογίου, ειδικά σε περίπτωση εισαγωγής δεδομένων από νέους ερευνητικούς κλάδους, καθώς επίσης και την επανεξέταση του ήδη υπάρχοντος με στόχο την ομαλότερη πλοήγηση στο σύστημα.

3) Μεταβολές οντολογίας που σχετίζονται με διαφορετική ερμηνεία των διάφορων όρων. Ειδικότερα, ένα μακροχρόνιο πρόβλημα της GO, είναι η πρακτικά αδύνατη πλήρης σύγκλιση μιας ενιαίας και καθολικής ερμηνείας των διαφορετικών στοιχείων που περιλαμβάνει, με αποτέλεσμα τα δεδομένα που καταχωρούνται από τους διάφορους ερευνητές να αντιμετωπίζονται και να ονομάζονται κατά τρόπο μοναδικό κάθε φορά. Απόρροια αυτού, είναι η πολλαπλή αναντιστοιχεία των ίδιων δεδομένων σε περισσότερες από μια κατηγορίες ανάλογα με τον ερευνητή που τα καταχώρησε στο πρόγραμμα. Αυτό δημιουργεί τελικά σύγχυση στη συνοχή των γενετικών βάσεων.

4) Μεταβολές οντολογίας που αφορούν στις σχέσεις που συνδέουν τα δεδομένα. Πολλές φορές ύστερα από την προσθήκη νέων δεδομένων είναι αναγκαία η επανεξέταση τόσο της μεταξύ τους σχέσης όσο και της σχέσης τους με τα προϋπάρχοντα δεδομένα, και κατ’ επέκταση ο σχεδιασμός νέων, όποτε αυτό καθίσταται αναγκαίο.

Οντολογία (Ontology) Επεξεργασία

Η Οντολογία (Ontology) στην GO περιλαμβάνει τους όρους (GO terms/GO concept/GO classes) που χρησιμοποιούνται για τον ορισμό των λειτουργιών των γονιδίων (“gene function”) και την περιγραφή του τρόπου με τον οποίο συσχετίζονται οι λειτουργίες αυτές (“relations”).[7] Πρόκειται για ένα κωδικοποιημένο λεξιλόγιο που δημιουργείται για να αποδώσει τη βιολογική πληροφορία με ένα δομημένο τρόπο.[7][8]

Όροι (Terms) Επεξεργασία

Κάθε όρος (term) έχει ένα όνομα και μια GO ταυτότητα (ένας 7ψηφιος κωδικός από αριθμούς που ξεκινά πάντα με “GO: ”). Με τον κωδικό δίνονται επίσης πληροφορίες για την οντολογία της GO στην οποία ανήκουν και ένα μικρό κείμενο που περιγράφει τι αφορά ο όρος με τη σχετική βιβλιογραφία και τις σχέσεις με άλλους όρους. Επίσης, μπορεί να δίνονται προαιρετικά, στοιχεία για εναλλακτικές ταυτότητες όταν προκύπτουν ταυτόσημοι όροι, συνώνυμα και αν αυτά είναι ακριβή, σχετικά, περιέχουν ή περιέχονται στον αρχικό όρο, αναφορές από άλλες βάσεις για παρόμοια στοιχεία, σχόλια και αν πρόκειται για όρο που έχει αφαιρεθεί (“Obsolete” tag).[9][2] Οι όροι είναι ορισμοί ή αξιώματα που συσχετίζουν τον καινούργιο όρο με άλλους όρους της GO (ή άλλες βάσεις δεδομένων) ώστε να διατηρείται μια λογική συνέχεια.[10]

Όροι που συσχετίζονται μπορούν να αναπαρασταθούν ως ένας γράφος[8], όπου όροι είναι οι κόμβοι και οι σχέσεις μεταξύ τους αναπαρίστανται με κατευθυνόμενες ακμές. Κάθε κόμβος μπορεί να συνδέεται με πολλούς υψηλότερους σε ιεραρχία («γονικούς») κόμβους και αντίστοιχα με πολλούς χαμηλότερης ιεραρχίας και προκύπτει τελικά μια ιδιαίτερα πολύπλοκη και όχι μια απλή ιεραρχική δομή.[11]

Αξιώματα (Axioms) Επεξεργασία

Τα αξιώματα (axioms) χρησιμοποιούνται για τον ορισμό των σχέσεων μεταξύ των όρων μιας οντολογίας. Βοηθούν στην διατήρηση μιας πολύπλοκης αλλά λογικής δομής στην GO, καθώς χρησιμοποιούνται για τον ορισμό νέων όρων και τον έλεγχο για τις σχέσεις τους με άλλους όρους της Οντολογίας. Υπάρχουν επίσης αξιώματα, τα οποία συνδέουν την GO με άλλες εξωτερικές οντολογίες ΟΒΟ (Open Biological Ontologies).[7]

Υποσύνολα (GO subsets/slims) Επεξεργασία

Τα υποσύνολα (GO subsets/slims) είναι σύνολα όρων που παρέχουν μια σύνοψη των λειτουργιών, των θέσεων και ρόλων κάποιων συνόλων γονιδίων. Κάθε υποσύνολο μπορεί να αφορά ένα μόνο είδος ή ορισμένα τμήματα της οντολογίας και συνήθως περιέχει μόνο όρους υψηλής ιεραρχίας. Επίσης, υπάρχει ένα υποσύνολο που περιέχει και σημάνει όρους που δεν πρέπει να τους αποδοθεί annotation και ένα με όρους που δεν πρέπει να χρησιμοποιηθούν καθόλου. Δύο ακόμα υποσύνολα είναι το Generic GO slim και το υποσύνολο Alliance of Genome Resources (https://www.alliancegenome.org/). Άλλα υποσύνολα αφορούν επιστημονικές ομάδες που χρησιμοποιούν την GO.[2]

Σύνδεση με Εξωτερικές Οντολογίες Επεξεργασία

Η Οντολογία Γονιδίων αλληλοτροφοδοτείται με άλλες εξωτερικές οντολογίες είτε με φόρτωση υπό-οντολογιών για τον ορισμό όρων, είτε με εισαγωγή αναφορών για διασταύρωση πληροφοριών από άλλες πηγές. Βάσει της δομής των εξωτερικών οντολογιών, δημιουργούνται αυτόματα επιπρόσθετες σχέσεις μεταξύ όρων[12] που αφορούν ανατομικές δομές, κυτταρικούς τύπους, χημικά συστατικά και ομαδοποιήσεις με πληροφορίες ταξινόμησης. Κάποιες από αυτές είναι: Uberon[13], Protein Ontology[14], Plant Ontology[15], ChEBI[16], Relations Ontology[17], NCBI Taxonomy[18], Sequence Ontology[19], Ontology of Biological Attributes (http://ww.obofoundry.org/ontology/oba.html[νεκρός σύνδεσμος]), Fungal Anatomy Ontology (http://www.obofoundry.org/ontology/fao.html), Phenotypic Quality Ontology (http://obofoundry.org/ontology/pato.html), and Common Anatomy Reference Ontology (http://www.obofoundry.org/ontology/caro.html). Επίσης, κάποιες εξωτερικές πηγές που χρησιμοποιεί η GO για διασταύρωση πληροφοριών και όρων είναι: Reactome[20], The Annotated Reactions Database (Rhea)[21], Enzyme Commission (EC; http://www.sbcs.qmul.ac.uk/iubmb/enzyme/), IntAct, Complex Portal[22] and MetaCyc[23].[2]

Αναπαράσταση Σχέσεων μεταξύ των Όρων Επεξεργασία

Οι βασικές συμβάσεις που χρησιμοποιούνται για την περιγραφή των σχέσεων είναι:

  1. Οι κόμβοι που αναπαριστούν όρους.
  2. Οι «γονικοί κόμβοι» είναι κόμβοι πιο κοντά στη βάση του γράφου και οι πιο εξειδικευμένοι κόμβοι που υπάρχουν τοποθετούνται προς την κορυφή του γράφου.
  3. Η κορυφή του βέλους δείχνει την κατεύθυνση της σχέσης
  4. Διακεκομμένες γραμμές δείχνουν πως η σχέση προέκυψε από τα δεδομένα αλλά δεν έχει καταχωρηθεί στην οντολογία.[9][2]

Οι βασικές σχέσεις ανάμεσα σε δύο τυχαίους όρους Α, Β είναι:

  1. «είναι» (“is a”): αν ο όρος A είναι Β (“A is B”) σημαίνει πως ο όρος Α είναι ένας υπότυπος του Β, π.χ. η δράση οξειδάσης είναι μια καταλυτική δράση.
  2. «ανήκει» (“part of”): αν ο όρος Α ανήκει στο Β (“Α part of Β”) σημαίνει πως ο Α όρος υπάρχει, είναι μέρος του Β και εφόσον υπάρχει ο Α θα υπάρχει και ο Β. Ενώ αν υπάρχει ο Β δεν θα υπάρχει απαραίτητα και ο Α.
  3. «περιέχει» (“has part”): αν ο όρος Α περιέχει τον όρο Β (“A has part B”) σημαίνει πως ο Α περιέχει το Β και αν ο Α υπάρχει θα υπάρχει απαραίτητα και ο Β ενώ δεν ισχύει το αντίστροφο με βεβαιότητα.
  4. «ρυθμίζει» (“regulates”): η σχέση αυτή αναφέρεται σε διαδικασίες Α, Β όπου αν η Α ρυθμίζει την Β (“A regulates B”) τότε σημαίνει πως αν συμβαίνουν και οι 2 διαδικασίες η Α πάντα θα ρυθμίζει τη Β αλλά η Β δεν θα ρυθμίζεται πάντα αποκλειστικά από την Α. Η διαδικασία –στόχος μπορεί να είναι ένα μονοπάτι, μια τιμή pH ή και ένα μέγεθος.[9][2]

Λειτουργία Γονιδίων (Gene Function) Επεξεργασία

Η Οντολογία Γονιδίων αναφέρεται στη «λειτουργία γονιδίων» ("gene function") δεδομένου ότι τα γονίδια είναι η μοναδική πηγή πληροφορίας για τις διαδικασίες που λαμβάνουν χώρα σε μοριακό και κυτταρικό επίπεδο, αλλά με τη φράση αυτή εννοείται η λειτουργία που εκτελούν τα προϊόντα που κωδικοποιούνται από τα αναφερόμενα γονιδία (πρωτεΐνες ή μη κωδικά RNA) και όχι τα γονίδια αυτά καθ’ αυτά.[11]

Για την περιγραφή της ακολουθεί το πρότυπο της μοριακής βιολογίας («molecular biology paradigm»), σύμφωνα με το οποίο, το γονίδιο κωδικοποιεί ένα γονιδιακό προϊόν που εκτελεί μια λειτουργία σε μοριακό επίπεδο (μοριακή λειτουργία), σε μια συγκεκριμένη θέση του κυττάρου (cellular component), συνεισφέροντας τελικά σε ένα γενικότερο βιολογικό σκοπό (biological process) που περιλαμβάνει πολλές διαδικασίες μοριακού επιπέδου.[9]

Γι αυτό, η λειτουργία των γονιδίων προσεγγίζεται σε 3 επίπεδα:

  • Μοριακή λειτουργία (Molecular Function)
  • Κυτταρικός Εντοπισμός (Cellular Component)
  • Βιολογική διαδικασία (Biological Process)


Μοριακή λειτουργία (Molecular Function)

Η διαδικασία που εκτελεί ένα μακρομόριο μέσω φυσικών αλληλεπιδράσεων με άλλες μοριακές οντότητες. Σχετίζεται με τη βιοχημεία (πρόσδεση ή κατάλυση μιας αντίδρασης) ή αναφέρεται στο γενικό ρόλο του μορίου ως μέρος ενός ευρύτερου συστήματος ή διαδικασίας (π.χ. πρωτεΐνες-υποδοχείς). [11]

Κυτταρικός Εντοπισμός (Cellular Component)

Η θέση στο κύτταρο όπου εντοπίζεται ένα μακρομόριο που εκτελεί μια συγκεκριμένη μοριακή λειτουργία. Πιθανές θέσεις είναι είτε κοντά σε κυτταρικές δομές (π.χ. πλασματική μεμβράνη) ή κυτταρικά διαμερίσματα (π.χ. μιτοχόνδρια), είτε τα σταθερά μακρομοριακά σύμπλοκα στα οποία συμμετέχουν (π.χ. ριβοσώματα). [11]

Βιολογική διαδικασία (Biological Process)

Είναι οι σημαντικές, γενετικά προγραμματισμένες λειτουργίες του οργανισμού που τις καθορίζει το αποτέλεσμα που επιφέρουν (π.χ. κυτταρική διαίρεση). Η διεξαγωγή καθεμιάς από αυτές απαιτεί την πραγματοποίηση πολλών μοριακών διαδικασιών που υπόκεινται σε αυστηρό έλεγχο και χρονική διευθέτηση. Τα γονιδιακά προϊόντα μπορεί να συμμετέχουν άμεσα στη διαδικασία ή να την επηρεάζουν έμμεσα μέσω ελέγχου ή συμμετοχής σε άλλη προαπαιτούμενη διαδικασία. [11]

Κάθε μια από αυτές τις κατηγορίες αποτελεί μια διαφορετική οντολογία. [11] Οι οντολογίες αυτές είναι απαραίτητες, μοιράζονται τα ίδια αναγνωριστικά και μία καλώς ορισμένη σύνταξη.

Ανανέωση Περιεχομένου Επεξεργασία

Υπάρχει συνεχής ανανέωση της βάσης με διορθώσεις, διαγραφές ή/και εισαγωγή όρων και σχέσεων ώστε να συμβαδίζει πάντα με τα νέα πειραματικά δεδομένα. Οι όροι δεν διαγράφονται από την οντολογία αλλά αλλάζει η κατάστασή τους σε «κρυφή» (“obsolete”) και οι ακμές (σχέσεις) αφαιρούνται. [24]

GO Annotations Επεξεργασία

Οι υποσημειώσεις (GO annotations) συνιστούν μια σχέση μεταξύ γονιδίου και ενός όρου GO, με στοιχεία υπό τη μορφή ενός «αποδεικτικού κώδικα GO» από δημοσιευμένα άρθρα ή μιας δημοσιευμένης αναφοράς ή μιας περιγραφής της μεθοδολογίας που χρησιμοποιήθηκε για τη δημιουργία του σχολιασμού. Ωστόσο, όλες οι υποσημειώσεις GO εν τέλει υποστηρίζονται από την επιστημονική βιβλιογραφία άμεσα ή έμμεσα. Οι αποδεικτικοί κώδικες GO περιγράφουν τη διαφορά ενός θεωρητικού annotation με την πραγματική πειραματική απόδειξη, τα οποία εξετάζονται από εμπειρογνώμονα βιολόγο - προγραμματιστή δεδομένων.

Πειραματικά υποστηριζόμενα Annotations Επεξεργασία

Οι αποδεικτικοί κώδικες EXPerimental (EXP) δείχνουν ότι υπάρχουν στοιχεία από ένα πείραμα που υποστηρίζουν άμεσα το annotation του γονιδίου. Για παράδειγμα, μια συσχέτιση μεταξύ ενός γονιδιακού προϊόντος και του υποκυτταρικού εντοπισμού του, όπως προσδιορίζεται από τον ανοσοφθορισμό, θα υποστηρίζεται από τον αποδεικτικό κώδικα Inferred from Direct Assay (IDA) και από έναν υπότυπο των στοιχείων EXP. Οι υποσημειώσεις με άμεσες πειραματικές αποδείξεις δημιουργούνται από τους βιολόγους και από τους διδακτορικούς υποψηφίους εξειδικευμένους σε προγράμματα υπολογιστών, οι οποίοι διαβάζουν βιβλία που έχουν αξιολογηθεί από ομότιμους και δημιουργούν GO annotations, όπως δικαιολογούνται από τα στοιχεία που παρουσιάζονται σε αυτά τα άρθρα.

Επιπροσθέτως, για την εξασφάλιση της συνοχής και της ποιότητας στις πρακτικές εξειδίκευσης των εμπειρογνωμόνων, οι προγραμματιστές βιολογίας της GOC (όπως αναφέρεται παρακάτω) συναντούνται τακτικά για να συζητήσουν τα ζητήματα επιμέλειας και να συμμετάσχουν σε ασκήσεις που αφορούν το σχολιασμό γονιδίων. Κατά τη διάρκεια αυτών των ασκήσεων, πολλαπλές ομάδες επιμελητών σχολιάζουν ένα ενιαίο έγγραφο, το οποίο οδηγεί σε διευκρινίσεις σχετικά με τη χρήση όρων οντολογίας και κώδικες αποδεικτικών στοιχείων GO και αναπτύσσει βέλτιστες πρακτικές μεταξύ των κατανεμημένων ομάδων GO. Για παράδειγμα, η διευκρίνιση του τρόπου με τον οποίο τα αποτελέσματα του πειράματος μόλυνσης και λειτουργικής συμπλήρωσης θα μπορούσαν να σημειωθούν, εξασφαλίζουν ότι η πληροφορία βασίζεται σε λειτουργικές γενετικές αλληλεπιδράσεις έναντι του φαινοτύπου, επομένως καταγράφεται στη βάση δεδομένων GO.

Συνεχίζοντας, προσφάτως τα microRNAs εισχώρησαν στις υποσημειώσεις (GO annotations)[25] καθώς η ρύθμιση των μικροοργανισμών των αναπτυξιακών και κυτταρικών διεργασιών ήταν ένα νέο πεδίο μελέτης. Συνεπώς, οι ερευνητές έπρεπε να βασίζονται στα λειτουργικά annotations των microRNA-στόχων ως υποκατάστατο, διότι δεν υπήρχαν άμεσα annotation των ίδιων των microRNAs. Σε διαβούλευση με τους εμπειρογνώμονες στον τομέα της έρευνας microRNA, δόθηκε σημαντική προσπάθεια για την αποκατάσταση αυτής της κατάστασης. Δημιουργήθηκαν οδηγίες για τις υποσημειώσεις microRNA και ακολουθώντας αυτές τις οδηγίες, δημιουργήσαμε annotations για πάνω από 300 ανθρώπινα microRNAs, 70 στο Drosophila melanogaster, και σχεδόν 200 στο Arabidopsis thaliana.

Τα annotations δέσμευσης πρωτεϊνών είναι χρήσιμα μόνο αν περιλαμβάνουν τον συγκεκριμένο δεσμευτή πρωτεϊνών. Με την προσθήκη της βάσης δεδομένων IntAct [26] ως φορέα σχολιασμού GO, ο αριθμός των συγκεκριμένων annotation δέσμευσης πρωτεϊνών έχει αυξηθεί δραματικά. Μόνο τα annotations υψηλής πιστότητας ενσωματώνονται στο GO από το IntAct. Σε συνδυασμό με annotations από πειράματα μικρής κλίμακας που έχουν συμβάλει στην GO από πολλούς διαφορετικούς παρόχους , τα annotations IntAct βοηθούν να καταστεί η βάση γνώσεων του GO ένας χρήσιμος πόρος για δεδομένα δικτύου αλληλεπίδρασης πρωτεϊνών υψηλής εμπιστοσύνης.

Επιπροσθέτως, για τη δημιουργία δικτύων αλληλεπίδρασης πρωτεϊνών, οι χρήστες πρέπει να χρησιμοποιήσουν το πεδίο 'with' των Αρχείων Σύνδεσης GO (GAF), το οποίο περιέχει το αναγνωριστικό του δεσμευτή αλληλεπίδρασης. Ζητούμε από τους χρήστες να γνωρίζουν τα annotations που δηλώνουν ότι μια συγκεκριμένη γκάμα έχει αποκτήσει τη λειτουργία. Η απαρίθμηση NOT γενικά δημιουργείται όταν ένα γονιδιακό προϊόν με συγκεκριμένη περιοχή ή ένωση γονιδιακής οικογένειας αναμένεται ότι έχει κάποια δραστηριότητα, αλλά όπου υπάρχουν ρητά πειραματικά δεδομένα δείχνει ότι το γονιδιακό προϊόν ΔΕΝ έχει αυτή τη δραστηριότητα. Τα annotations είναι σχετικά σπάνια βάση των γνώσεων (επί του παρόντος υπάρχουν περίπου 3300 από αυτές, βασισμένες σε πειραματικά δεδομένα). Ωστόσο, πιστεύεται ότι μπορεί να είναι ιδιαίτερα χρήσιμες σε ορισμένες εφαρμογές, όπως η αξιολόγηση της λειτουργικότητας της ακρίβειας της διαδικασίας. Τα annotations αυτά έχουν τον χαρακτηρισμό «ΝΟΤ» στο πεδίο προσδιορισμού GAF.

Φυλογενετικά υποστηριζόμενα Αnnotations Επεξεργασία

Οι Φυλογενετικές αρχές, αναδημιουργώντας εξελικτικά γεγονότα για να συναγάγουν σχέσεις μεταξύ των γονιδίων[27], παρέχουν έναν ισχυρό τρόπο απόκτησης γνώσεων σχετικά με τη γονιδιακή λειτουργία. Εν συντομία, αναπτύχθηκε λογισμικό (PAINT, Φυλογενετικό Εργαλείο Σχολιασμού Συμπερασμάτων) με το οποίο ένας προγραμματιστής βιολογικών δεδομένων μπορεί να δει όλα τα πειραματικά annotations για γονίδια σε μια οικογένεια γονιδίων και να χρησιμοποιήσει αυτές τις πληροφορίες για να συναγάγει annotations για μη χαρακτηρισμένα μέλη της οικογένειας[28]. Ο προγραμματιστής βιολόγος έπειτα δημιουργεί ένα σαφές μοντέλο κέρδους και απώλειας γονιδιακής λειτουργίας σε συγκεκριμένους κλάδους σε ένα φυλογενετικό δέντρο της οικογένειας. Αυτό το πρότυπο χρησιμοποιείται για να συναχθούν νέα annotations (δεν υπάρχει αλληλεπικάλυψη με πειραματικές υποσημειώσεις) για γονίδια στην οικογένεια.

Φυλογενετικά annotations σημειώνονται από τους κώδικες αποδεικτικών στοιχείων IBA (Inferred from Biological Ancestry). Κάθε συνήθης υποσημείωση μπορεί να εντοπιστεί στους άμεσα πειραματικά annotations που χρησιμοποιήθηκαν ως βάση για αυτόν τον ισχυρισμό. Το πρόγραμμα Phylogenetic Commenting GO είναι πλέον η μεγαλύτερη πηγή χειρωνακτικά σχολιασμένων παρατηρήσεων στη βάση δεδομένων GO και έχει αυξήσει σημαντικά τον αριθμό annotations ακόμη και σε οργανισμούς που έχουν μελετηθεί καλά πειραματικά .

Υπολογιστικά υποστηριζόμενα Αnnotations Επεξεργασία

Εν κατακλείδι, αυτά που απομακρύνονται από τα άμεσα πειραματικά ευρήματα, αποτελούν τους ηλεκτρονικούς κώδικες αποδεικτικών στοιχείων (IEA), οι οποίοι δεν εξετάζονται μεμονωμένα (αν και γενικά υπάρχει εκτεταμένη χειρωνακτική ανασκόπηση ενός δείγματος). Τα annotations που υποστηρίζονται από τον IEA βασίζονται τελικά είτε στην ομολογία είτε και σε άλλες πειραματικές πληροφορίες ή πληροφορίες αλληλουχίας, αλλά γενικά δεν μπορούν να ανιχνευθούν στην πειραματική πηγή. Τρεις μέθοδοι αποτελούν το μεγαλύτερο μέρος αυτών των υποσημειώσεων. Η πρώτη και πιο ολοκληρωμένη μέθοδος είναι η InterPro2GO[29] , η οποία βασίζεται στην επιμελημένη συσχέτιση ενός όρου GO με ένα γενικευμένο μοντέλο αλληλουχίας («χαρακτηριστική υπογραφή») μιας ομάδας ομόλογων πρωτεϊνών. Οι αλληλουχίες πρωτεϊνών με στατιστικά σημαντική αντιστοιχία με σε μια υπογραφή ανατίθενται οι όροι GO που σχετίζονται με την υπογραφή, μια μορφή ομολογίας. Μια δεύτερη μέθοδος είναι η υπολογιστική μετατροπή των ελεγχόμενων όρων της UniProt (κυρίως οι αριθμοί της ενζυμικής ομάδας που περιγράφουν τις ενζυμικές δραστηριότητες και οι λέξεις-κλειδιά UniProt που περιγράφουν τις υποκυτταρικές θέσεις), στους σχετικούς όρους GO. Τέλος, τα annotations γίνονται με βάση τα ορθόλογα 1:1 που συνάγονται από τα γονιδιακά δέντρα, μια προσέγγιση που μεταφέρει αυτόματα τις παρατηρήσεις που βρέθηκαν πειραματικά σε ένα γονίδιο, σε ορθόλογα 1:1 στην ίδια ταξινομική κατηγορία.

Από τα Αnnotations στα Βιολογικά Μοντέλα (LEGO) Επεξεργασία

Η δομή των υποσημειώσεων GO είναι  αρκετά απλή, μια κατάσταση  που αποτελείται από ένα γονίδιο και έναν όρο GO (με τα αποδεικτικά στοιχεία αυτής της σύνδεσης, όπως περιγράφεται παραπάνω).

Επειδή η γονιδιακή λειτουργία είναι περίπλοκη και σχετίζεται με μεγαλύτερα συστήματα και βιολογικά «προγράμματα» που εκτελούνται από πολλαπλά γονίδια, ένα τυπικό annotation GO αντιπροσωπεύει δικαίως μια απλή πτυχή αυτής της λειτουργίας. Προηγουμένως αναφέραμε μια απλή επέκταση[30] στο μοντέλο GO annotation, που ονομάζεται «επέκταση υποσημείωσης»  η οποία επιτρέπει στους βιολογικούς προγραμματιστές να καταγράψουν πρόσθετες πληροφορίες χρησιμοποιώντας καθορισμένες σχέσεις και οντότητες ώστε να τροποποιήσουν τον επιλεγμένο όρο GO. Ωστόσο, προκειμένου να καταστεί δυνατή μια πιο ολοκληρωμένη και ακριβής αναφορά σχετικά με τη λειτουργία των γονιδίων και τον τρόπο με τον οποίο τα πολλαπλά γονίδια μπορεί να λειτουργήσουν μαζί, έχουμε αναπτύξει ένα «γραμματικό κώδικα» για να συνδυαστούν παραδοσιακοί GO annotations σε μια ακόμα πλήρως ολοκληρωμένη αναπαράσταση της σχέσης γονιδιακών λειτουργιών μεταξύ τους και σε μεγαλύτερες βιολογικές διεργασίες. Το ονομάζουμε αυτό νέες μορφοποιημένες εκφράσεις χρησιμοποιώντας τη γονιδιακή οντολογία ή το LEGO. Μια αρχική ανακοίνωση μπορεί να βρεθεί στην ηλεκτρονική διεύθυνση https://web.archive.org/web/20171128150511/http://www.geneontology.org/article/gaf-gpad-and-lego

Ο τυποποιημένος όρος LEGO, εν συντομία, ορίζει πόσο διαφορετικοί είναι οι GO annotations και τον τρόπο που μπορούν να συνδυαστούν σε ένα μεγαλύτερο 'μοντέλο' γονιδίου και συστήματος. Είναι σημαντικό ότι το μοντέλο μπορεί και  αποσυντίθενται υπολογιστικά σε GO annotations, έτσι ώστε όλες οι τρέχουσες εφαρμογές σχολιασμών GO, όπως η ανάλυση εμπλουτισμού, να εξακολουθήσουν να υποστηρίζονται. Εντούτοις, ενθαρρύνουμε τους προγραμματιστές των εργαλείων ανάλυσης με βάση το δίκτυο να κατεβάσουν τo γνήσιο πρόγραμμα του OWL (Ontology Language Web) για κάθε μοντέλο LEGO το οποίο καθορίζει πώς συνδέονται οι λειτουργίες των διαφόρων γονιδιακών προϊόντων δικτύων. Οι χρήστες ενδέχεται επίσης να ενδιαφέρονται για την περιήγηση και την προβολή δημοσιευμένων μοντέλων, τα οποία διατίθενται στην ηλεκτρονική διεύθυνση: http://noctua.berkeleybop.org

Επομένως, αναπτύχθηκε μια πλατφόρμα λογισμικού για τη δημιουργία και επεξεργασία μοντέλων LEGO, τα οποία ονομάζονται Noctua. Τα Noctua επιτρέπουν το συνεργατικό σχολιασμό των μοντέλων LEGO μέσω διαδικτύου. Επί του παρόντος, η κινεζική κυβέρνηση βρίσκεται στη διαδικασία μετάβασης Noctua (http://noctua.berkeleybop.org) ως κύριο εργαλείο GO.

Αρκετοί πάροχοι σχολιασμού GO χρησιμοποιούν ήδη το λογισμικό Noctua για να δημιουργήσουν μοντέλα LEGO και οι ειδικοί της GOC αναμένουν ότι ο αριθμός και η χρησιμότητα τέτοιων μοντέλων θα αυξηθούν ραγδαία κατά την προσεχή περίοδο. Έχουν πραγματοποιηθεί 5 εργαστήρια σχολιασμού κατά το παρελθόν για την εισαγωγή βιοπρογραμματιστών στο εργαλείο σχολιασμού Noctua και τις αρχές του OWL-based LEGO curation.

GO Annotations σε πειράματα υψηλής απόδοσης Επεξεργασία

Τα δεδομένα από πειράματα υψηλής απόδοσης συλλέγονται γενικά με τρόπο ελεύθερο υποθέσεων και κατά συνέπεια δεν παρέχουν γενικά τόσο ισχυρή ένδειξη γονιδιακής λειτουργίας όσο πειράματα μικρής κλίμακας μοριακής βιολογίας που υποστηρίζουν επί του παρόντος τα περισσότερα από τα πειραματικα GO annotations . Επιπλέον, τα πειράματα υψηλής απόδοσης μπορούν να υποβληθούν σε σχετικά υψηλά ψευδώς θετικά ποσοστά. Συνεπώς, οι χρήστες ενδέχεται να θέλουν να φιλτράρουν αυτές τις πειραματικές υποσημειώσεις σε ορισμένες εφαρμογές του GO. Για να γίνει αυτό δυνατό, ξεκινώντας από το 2018, σε συνεργασία με την Οντολογία[31] [32], το GO προσέθεσε αρκετούς νέους κώδικες αποδεικτικών στοιχείων για να περιγράψει πειράματα υψηλής απόδοσης: «ECO: 0006056 αποδείξεις υψηλής απόδοσης (HDA), «ECO: 0007001 τεκμηρίωση φαινοτύπου μετάλλαξης υψηλής απόδοσης που χρησιμοποιείται σε χειροκίνητη διαπίστωση» (HMP), «ECO: 0007003 υψηλό (HGI) και «ECO: 0007007 αποδεικτικά στοιχεία υψηλής απόδοσης και έκφρασης που χρησιμοποιούνται σε χειροκίνητους ισχυρισμούς» (HEP). Για να συνοδεύσουμε τους νέους κώδικες αποδεικτικών στοιχείων, έχουν δημιουργηθεί κατευθυντήριες γραμμές annotations για να βοηθηθεί η αναγνώριση και την επεξεργασία των συνόλων δεδομένων υψηλής απόδοσης που πληρούν τα κριτήρια GO annotations . Τα μέλη της κοινοπραξίας έχουν αναθεωρήσει έγγραφα με περισσότερους από 40 σχολιασμούς χρησιμοποιώντας έναν ενιαίο κωδικό τεκμηρίωσης και έχουν ενημερώσει τους κωδικούς αποδεικτικών στοιχείων ή έχουν αφαιρέσει τα annotations, εάν χρειάζεται. Υπάρχουν επί του παρόντος πάνω από 31.000 annotations που περιέχουν κωδικούς αποδεικτικών στοιχείων HTP από 140 ερευνητικά άρθρα, που αντιπροσωπεύουν <5% των πειραματικών GO annotations. Ο προσδιορισμός των annotations που προέρχονται από πειράματα υψηλής απόδοσης επιτρέπει στους χρήστες να επιλέξουν να αποκλείσουν αυτά από τις αναλύσεις τους, εάν ανησυχούν ότι οι υποσημειώσεις αυτές μπορεί να οδηγήσουν σε αυξημένη προκατάληψη στην ανάλυση δεδομένων. Αυτό είναι πιθανόν να είναι ιδιαίτερα σημαντικό, όπως συμβαίνει συχνά, όταν το GO χρησιμοποιείται για την ερμηνεία τύπων δεδομένων παρόμοια με εκείνα στα οποία βασίζονται τα annotations.

Υπεργεωμετρική κατανομή (Hypergeometric distribution) Επεξεργασία

Έπειτα από ένα πείραμα γονιδιακής έκφρασης που διεξάγεται με τη χρήση των oμικών τεχνολογιών, προκύπτει η ανάγκη ομαδοποίησης των γονιδίων που εκφράζονται με παρόμοιο τρόπο σε διαφορετικές καταστάσεις σε υποσύνολα. Γονίδια των οποίων τα επίπεδα έκφρασης μεταβάλλονται σημαντικά μεταξύ δύο ή περισσότερων συνθηκών ονομάζονται “διαφορικά εκφραζόμενα” (differentially expressed genes, DEG). Οι όροι (terms) των γονιδιακών οντολογιών περιγράφουν λειτουργίες των γονιδίων και συναντώνται με διαφορετική συχνότητα σε διαφορετικές συνθήκες. Έτσι, η υπεργεωμετρική κατανομή χρησιμοποιείται για να καθορίσει εάν ένα όρος παρουσιάζεται με μεγαλύτερο ποσοστό από αυτό που ανταποκρίνεται στην πραγματικότητα (over represented).[33]

Για τα διαφορικά εκφραζόμενα γονίδια διενεργούμε ανάλυση εμπλουτισμού. Για την πραγματοποίηση μιας λειτουργικής ανάλυσης εμπλουτισμού χρησιμοποιούμε το “Fisher’s Exact Test” ή αλλιώς το τεστ της “υπεργεωμετρικής κατανομής”. Έτσι έχουμε:

  • Mια ομάδα γονιδίων ενδιαφέροντος (DEG), που αποτελούν τα υπό μελέτη γονίδια (study set)
  • Μια ομάδα με τον συνολικό πληθυσμό των γονιδίων που θα λάβουμε υπόψη στην ανάλυση (population set), στα οποία συμπεριλαμβάνονται και τα υπό μελέτη γονίδια.
  • Tα GO annotations, που συσχετίζουν τον συνολικό πληθυσμό των γονιδίων με όρους GO.
  • Tην οντολογία GO, μαζί με την περιγραφή των όρων GO και τις μεταξύ τους σχέσεις.

Για κάθε όρο GO, χρειαζόμαστε τη συχνότητα k των υπό μελέτη γονιδίων n (study set) που σχετίζονται με τον όρο αυτό, και τη συχνότητα Κ των γονιδίων στον συνολικό πληθυσμό N (population set) που σχετίζονται με τον ίδιο όρο. Ακολούθως, ελέγχουμε πόσο πιθανό είναι να ανακτήσουμε τουλάχιστον k γονίδια που σχετίζονται με τον όρο, αν n γονίδια λαμβάνονται τυχαία από τον πληθυσμό, δεδομένης της συχνότητας Κ και του μεγέθους N του πληθυσμού.[34]

Η υπεργεωμετρική κατανομή λοιπόν, χρησιμοποιείται για να προσομοιάσουμε τυχαία γεγονότα επιλογής ενός δείγματος αντικειμένων χωρίς επανάθεση. Έτσι, κάθε τυχαία επιλογή, στην οποία κάθε στοιχείο του συνόλου έχει ίσες πιθανότητες να διαλεχτεί, επηρεάζει τον αριθμό των στοιχείων ενός είδους που απομένουν στον συνολικό πληθυσμό, αφού τα στοιχεία δεν αντικαθίστανται. Οπότε κάθε επιλογή είναι εξαρτώμενη από την προηγούμενη. Ωστόσο, η σειρά διάταξης των στοιχείων και η σειρά επιλογής τους δε λαμβάνεται υπόψη και δεν έχει νόημα όταν γίνεται λόγος για διαφορικά εκφραζόμενα γονίδια. [35]

Mία ακόμα σημαντική έννοια στη διαδικασία της υπεργεωμετρικής κατανομής είναι αυτή της αθροιστικής (cumulative) πιθανότητας, που χρησιμοποιείται για την εκτίμηση της τυχαιότητας μιας διαδικασίας δειγματοληψίας χωρίς επανάθεση. H πιθανότητα να πάρουμε nt ή περισσότερα γονίδια που εμφανίζονται ως annotations στο t σε ένα δείγμα n γονιδίων που προέρχεται τυχαία από έναν μεγαλύτερο πληθυσμό γονιδίων μπορεί να υπολογιστεί από την αθροιστική υπεργεωμετρική κατανομή.

Για κάθε λειτουργία που εξετάζουμε μπορούμε να υπολογίσουμε τόσο το βαθμό στον οποίο αυτή είναι εμπλουτισμένη σε γονίδια που είναι διαφορικά εκφραζόμενα , όσο και το κατά πόσο αυτός ο εμπλουτισμός είναι στατιστικά σημαντικός.[35]

Consortium Επεξεργασία

To Gene Ontology Consortium (GOC), είναι μια κοινοπραξία με διεπιστημονικό χαρακτήρα που αναπτύσσεται συνεχώς προσπαθώντας να γεφυρώσει τις επιστήμες της Βιολογίας, της Ιατρικής και της Πληροφορικής. Στόχος της είναι η δημιουργία ενός εμπεριστατωμένου υπολογιστικού μοντέλου που θα αφορά τη βιολογική γνώση. Το μοντέλο αυτό θα υποστηρίζει την ανάλυση και την ερμηνεία του ολοένα αυξανόμενου αποθέματος δεδομένων μοριακής βιοϊατρικής. Η προσπάθεια αυτή βασίζεται στη συνεχή αξιολόγηση της εκάστοτε κατανόησης για τα βιολογικά συστήματα και συνεχώς ενδυναμώνεται μέσω της συνεισφοράς μεγάλου αριθμού βιολόγων και προγραμματιστών λογισμικού. [7]

Το εργαστήριο Cherry ήταν ένα από τα ιδρυτικά μέλη της Γονιδιακής Οντολογίας σε συνεργασία με τους FlyBase και MGI. To GOC δημιούργησε ένα συγκεκριμένο πρότυπο γλώσσας για να περιγράψει τη λειτουργία των πρωτεϊνών και του RNA. Η κοινοπραξία αυτή εστιάζει την προσοχή της στην ανάπτυξη διαδικασιών ανάλυσης, συνοχής και αναπαραγωγιμότητας των GO annotations. Η SGD (Saccharomyces Genome Database), ως μέλος του GOC, διερευνά συνεχώς νέους τρόπους σάρωσης της υπάρχουσας βιβλιογραφίας για να καθορίσει την αναπαραγωγιμότητα ενός συγκεκριμένου αποτελέσματος, αφού η αναπαραγωγιμότητα είναι το πραγματικό μέτρο αξιολόγησης ενός επιστημονικού αποτελέσματος. H χρήση της λοιπόν ως μέτρο αξιολόγησης των GO annotations θα οδηγήσει στη δημιουργία υψηλής αξίας συνόλων δεδομένων. [36] Ένα από τα μελλοντικά σχέδια του GOC περιλαμβάνει τη σύσταση μιας πύλης Εκπαίδευσης στην ιστοσελίδα του GO, που θα περιλαμβάνει διδακτικό υλικό με τη μορφή παρουσίασης και διαδραστικών βίντεο για την διευκόλυνση της κατανόησης και της χρήσης των πηγών GO. Η χρηματοδότηση του πρότζεκτ παρέχεται από το Εθνικό Ίδρυμα Υγείας και το Εθνικό Ίδρυμα Έρευνας του Ανθρώπινου γονιδιώματος των ΗΠΑ (National Institutes of Health, National Human Genome Research Institute), μέσω της επιχορήγησης U24 HG02273, που απονεμήθηκε στο γκρουπ των ερευνητών που δημιουργήθηκε από τους Judith A. Blake, J. Michael Cherry, Suzanna E. Lewis, Paul W. Sternberg, and Paul D. [37]

Εργαλεία-Tools Επεξεργασία

To κοινόχρηστο λεξιλόγιο είναι σημαντικό βήμα για την ενοποίηση των βιολογικών βάσεων δεδομένων. Καθώς όμως η γνώση αλλάζει, αλλάζει και η χρήση αυτών των λεξιλογίων. Για να αποφευχθεί το πρόβλημα της ασυνεχούς, αντιφατικής ή ασύμφωνης εκπροσώπησης δεδομένων, το GOC συνεχώς βελτιώνει τα εργαλεία του, τις πηγές και τις πολιτικές του, εξασφαλίζοντας τη συνοχή των annotations, και ότι αυτές αντικατοπτρίζουν την υπάρχουσα κατάσταση της βιολογικής γνώσης. Υπάρχει ένα μεγάλος αριθμός εργαλείων διαθέσιμων είτε online είτε ύστερα από λήψη από το διαδίκτυο, τα οποία χρησιμοποιούν δεδομένα που παρέχονται από το GO πρότζεκτ. Μερικά από αυτά αναπτύσσονται και υποστηρίζονται από το GOC, ενώ άλλα είναι αποτέλεσμα δουλειάς συνεργαζόμενων ομάδων. [38]

Ακολούθως παρουσιάζονται τα κυριότερα από αυτά:

  • AmiGO 2 (http://amigo.geneontology.org/amigo): Με την τελευταία αναβάθμιση έχουν προστεθεί στο AmiGO 2 νέα χαρακτηριστικά και έχουν γίνει βελτιώσεις προκειμένου να αυξηθεί η χρηστικότητά του. Έτσι, διαθέτει πλέον διαδραστικό πρόγραμμα περιήγησης για τις οντολογίες και τα annotations. Αυτό επιτρέπει στους χρήστες να περιηγηθούν στη δομή της γονιδιακής οντολογίας ξεκινώντας από πιο γενικές και καταλήγοντας σε πιο ειδικές κλάσεις και να ανακτούν φιλτραρισμένα annotations από οποιοδήποτε κλάδο/τμήμα της οντολογίας. Επιπλέον, ενώ η προηγούμενη εκδοχή αυτού του εργαλείου είχε τον περιορισμό των 10,000 γραμμών στις λήψεις, η τωρινή επιτρέπει τη λήψη έως και 100,000 γραμμών, επιτρέποντας έτσι και την ελεύθερη αναζήτηση κειμένου. [38]
  • Αναζήτηση PubMed ID (https://www.ncbi.nlm.nih.gov/books/NBK3805/): Το GOC πλέον έχει ενσωματώσει την αναζήτηση PubMed ID, η οποία δημιουργεί μια σελίδα για κάθε άρθρο της PubMed που χρησιμοποιήθηκε σαν στοιχείο για να υποστηρίξει τα GO annotations. Η σελίδα περιλαμβάνει σε μια λίστα όλα τα GO annotations που δημιουργήθηκαν με βάση τα πειραματικά δεδομένα του εν λόγω άρθρου. Οι σελίδες της PubMed είναι προσβάσιμες από αναζητήσεις annotation διαφόρων γονιδίων στην ιστοσελίδα GO. Tα GO annotations αποτελούν ουσιαστικά μία “υψηλού επιπέδου” περίληψη των ευρημάτων του άρθρου σε αντιστοιχία πάντα με τις γονιδιακές τους λειτουργίες. Έτσι και οι συγγραφείς του εκάστοτε άρθρου θα βρουν αυτές τις σελίδες ιδιαίτερα χρήσιμες για να αξιολογήσουν την παρουσίαση της δουλειάς τους μέσω της βάσης γνώσεων της GO, και κυρίως να κάνουν εποικοδομητική κριτική για την βελτίωση αυτής της παρουσίασης. Για το εν λόγω εργαλείο έγινε συνεργασία με την ομάδα της NCBI LinkOut. [7]
  • PANTHER (http://www.pantherdb.org/): To εργαλείο που πραγματοποιεί ανάλυση εμπλουτισμού σε μια ομάδα γονιδίων στην αρχική σελίδα της GO, συνδέεται πλέον με την ιστοσελίδα PANTHER. Αυτό επιτρέπει στους χρήστες να εκμεταλλευτούν τα εργαλεία απεικόνισης της σελίδα αυτής, δίνοντας την επιλογή της ιεραρχικής θέασης που οργανώνει τα αποτελέσματα της ανάλυσης εμπλουτισμού χρησιμοποιώντας της σχέσεις της GO. Αυτό έχει ως αποτέλεσμα συγγενικοί όροι να εμφανίζονται μαζί, διευκολύνοντας έτσι την ερμηνεία των βιολογικών αποτελεσμάτων που προκύπτουν από την ανάλυση εμπλουτισμού. Τα GO annotations στο PANTHER ανανεώνονται κάθε μήνα.[7]
  • SYSCILIA Consortium (http://syscilia.org/): Αφορά τη βελτίωση της παρουσίασης των ακτινωτών υποδομών σε κλάδους που αφορούν τον κυτταρικό εντοπισμό (cellular component), με μελλοντικό στόχο τη βελτίωση και των κλάδων που αφορούν τις βιολογικές διαδικασίες.
  • MOD & GOA: Tα δύο αυτά εργαλεία της UniProt παρέχουν το μεγαλύτερο μέρος των annotations που διαθέτει το GOC. Oι ομάδες MOD και GOA ενσωματώνουν χειροκίνητα annotations βάσει βιβλιογραφίας και είναι υπεύθυνες για την δημιουργία annotations σχετικά με τον άνθρωπο, την αγελάδα, το σκύλο και την κότα. Πολλές ερευνητικές ομάδες χρησιμοποιούν το Protein2GO που αναπτύχθηκε από την ομάδα GOA. Το Protein2GO επεξεργάζεται κυρίως πρωτεϊνικές ακολουθίες, αλλά έχει επεκταθεί για να συμπεριλάβει RNA και μακρομοριακά σύμπλοκα. Η GOA παρέχει πρόσβαση στο 98% του συνολικού αριθμού των ειδών με διαθέσιμα annotations από τις βάσεις δεδομένων InterPro, Ensembl και UniProt. [39]
  • Matrix tool (http://amigo.geneontology.org/matrix#order):Πρόκειται για εργαλείο που επιτρέπει στους χρήστες να ελέγξουν αλληλοεπικαλύψεις (overlaps) μεταξύ ομάδων γονιδίων που έχουν προκύψει ως annotations σε διαφορετικές κλάσεις GO.[7]
  • Solr (https://cwiki.apache.org/confluence/display/SOLR): Πρόκειται για ένα περιβάλλον αναζήτησης που περιλαμβάνει το απόθεμα των αρχείων δίνοντας τη δυνατότητα στους χρήστες να αναζητήσουν GO δεδομένα.[7]
  • Eνσωμάτωση βελτιωμένων και διαδραστικών στατιστικών στοιχείων και γραφημάτων που συνοψίζουν ολόκληρο το σύνολο των GO annotations.[7]
  • Ενσωμάτωση νέων ιδιοτήτων που συνδέουν τις πηγές GO με εξατομικευμένες ροές εργασίες μέσω δημόσιων σελιδοδεικτών.[7]

Διαβάστε επίσης Επεξεργασία

Παραπομπές Επεξεργασία

  1. http://geneontology.org/
  2. 2,0 2,1 2,2 2,3 2,4 2,5 «The Gene Ontology Resource: 20 years and still GOing strong» (στα αγγλικά). Nucleic Acids Research 47 (D1): D330–D338. 2019-01-08. doi:10.1093/nar/gky1055. ISSN 0305-1048. PMID 30395331. PMC PMC6323945. https://academic.oup.com/nar/article/47/D1/D330/5160994. 
  3. 3,0 3,1 Ashburner, Michael; Ball, Catherine A.; Blake, Judith A.; Botstein, David; Butler, Heather; Cherry, J. Michael; Davis, Allan P.; Dolinski, Kara και άλλοι. (2000-5). «Gene Ontology: tool for the unification of biology» (στα αγγλικά). Nature Genetics 25 (1): 25–29. doi:10.1038/75556. ISSN 1061-4036. PMID 10802651. PMC PMC3037419. http://www.nature.com/articles/ng0500_25. 
  4. Leonelli, Sabina; Diehl, Alexander D; Christie, Karen R; Harris, Midori A; Lomax, Jane (2011-12). «How the gene ontology evolves» (στα αγγλικά). BMC Bioinformatics 12 (1). doi:10.1186/1471-2105-12-325. ISSN 1471-2105. PMID 21819553. PMC PMC3166943. https://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-12-325. 
  5. 5,0 5,1 5,2 5,3 du Plessis, L.; Skunca, N.; Dessimoz, C. (2011-11-01). «The what, where, how and why of gene ontology--a primer for bioinformaticians» (στα αγγλικά). Briefings in Bioinformatics 12 (6): 723–735. doi:10.1093/bib/bbr002. ISSN 1467-5463. PMID 21330331. PMC PMC3220872. https://academic.oup.com/bib/article-lookup/doi/10.1093/bib/bbr002. 
  6. 6,0 6,1 6,2 Lewis, Suzanna E. (2004-12-15). «Gene Ontology: looking backwards and forwards». Genome Biology 6 (1): 103. doi:10.1186/gb-2004-6-1-103. ISSN 1474-760X. PMID 15642104. PMC PMC549054. https://doi.org/10.1186/gb-2004-6-1-103. 
  7. 7,00 7,01 7,02 7,03 7,04 7,05 7,06 7,07 7,08 7,09 The Gene Ontology Consortium (2017-01-04). «Expansion of the Gene Ontology knowledgebase and resources» (στα αγγλικά). Nucleic Acids Research 45 (D1): D331–D338. doi:10.1093/nar/gkw1108. ISSN 0305-1048. PMID 27899567. PMC PMC5210579. https://academic.oup.com/nar/article-lookup/doi/10.1093/nar/gkw1108. 
  8. 8,0 8,1 Hastings, Janna (2017). Dessimoz, Christophe, επιμ. The Gene Ontology Handbook. 1446. New York, NY: Springer New York. σελίδες 3–13. ISBN 9781493937417. 
  9. 9,0 9,1 9,2 9,3 Ashburner, Michael; Ball, Catherine A.; Blake, Judith A.; Botstein, David; Butler, Heather; Cherry, J. Michael; Davis, Allan P.; Dolinski, Kara και άλλοι. (2000-5). «Gene Ontology: tool for the unification of biology» (στα αγγλικά). Nature Genetics 25 (1): 25–29. doi:10.1038/75556. ISSN 1061-4036. PMID 10802651. PMC PMC3037419. http://www.nature.com/articles/ng0500_25. 
  10. The Gene Ontology Consortium (2019-01-08). «The Gene Ontology Resource: 20 years and still GOing strong» (στα αγγλικά). Nucleic Acids Research 47 (D1): D330–D338. doi:10.1093/nar/gky1055. ISSN 0305-1048. https://academic.oup.com/nar/article/47/D1/D330/5160994. 
  11. 11,0 11,1 11,2 11,3 11,4 11,5 Dessimoz, Christophe, επιμ. (2017). The Gene Ontology Handbook. Methods in Molecular Biology. 1446. New York, NY: Springer New York. ISBN 9781493937417. 
  12. Hill, D. P. (2002-12-01). «Extension and Integration of the Gene Ontology (GO): Combining GO Vocabularies With External Vocabularies». Genome Research 12 (12): 1982–1991. doi:10.1101/gr.580102. PMID 12466303. PMC PMC187579. http://www.genome.org/cgi/doi/10.1101/gr.580102. 
  13. Mungall, Christopher J.; Torniai, Carlo; Gkoutos, Georgios V.; Lewis, Suzanna E.; Haendel, Melissa A. (2012-01-31). «Uberon, an integrative multi-species anatomy ontology». Genome Biology 13 (1): R5. doi:10.1186/gb-2012-13-1-r5. ISSN 1474-760X. PMID 22293552. PMC PMC3334586. https://doi.org/10.1186/gb-2012-13-1-r5. 
  14. Wu, Cathy H.; El-Sayed, Abdelrahman; Zhang, Jian; Wang, Qinghua; Smith, Barry; Shamovsky, Veronica; Ruttenberg, Alan; Ross, Karen και άλλοι. (2017-01-04). «Protein Ontology (PRO): enhancing and scaling up the representation of protein entities» (στα αγγλικά). Nucleic Acids Research 45 (D1): D339–D346. doi:10.1093/nar/gkw1075. ISSN 0305-1048. PMID 27899649. PMC PMC5210558. https://academic.oup.com/nar/article/45/D1/D339/2605841. 
  15. Jaiswal, Pankaj; Yamazaki, Yukiko; Shrestha, Rosemary; Arnaud, Elizabeth; Menda, Naama; Schaeffer, Mary; Huala, Eva; Li, Donghui και άλλοι. (2013-02-01). «The Plant Ontology as a Tool for Comparative Plant Anatomy and Genomic Analyses» (στα αγγλικά). Plant and Cell Physiology 54 (2): e1–e1. doi:10.1093/pcp/pcs163. ISSN 0032-0781. PMID 23220694. PMC PMC3583023. https://academic.oup.com/pcp/article/54/2/e1/1873708. 
  16. Steinbeck, Christoph; Mendes, Pedro; Swainston, Neil; Turner, Steve; Muthukrishnan, Venkatesh; Kale, Namrata; Ennis, Marcus; Dekker, Adriano και άλλοι. (2016-01-04). «ChEBI in 2016: Improved services and an expanding collection of metabolites» (στα αγγλικά). Nucleic Acids Research 44 (D1): D1214–D1219. doi:10.1093/nar/gkv1031. ISSN 0305-1048. PMID 26467479. PMC PMC4702775. https://academic.oup.com/nar/article/44/D1/D1214/2502583. 
  17. Smith, Barry; Ceusters, Werner; Klagges, Bert; Köhler, Jacob; Kumar, Anand; Lomax, Jane; Mungall, Chris; Neuhaus, Fabian και άλλοι. (2005-04-28). «Relations in biomedical ontologies». Genome Biology 6 (5): R46. doi:10.1186/gb-2005-6-5-r46. ISSN 1474-760X. PMID 15892874. PMC PMC1175958. https://doi.org/10.1186/gb-2005-6-5-r46. 
  18. Federhen, Scott (2012-01-01). «The NCBI Taxonomy database» (στα αγγλικά). Nucleic Acids Research 40 (D1): D136–D143. doi:10.1093/nar/gkr1178. ISSN 0305-1048. PMID 22139910. PMC PMC3245000. https://academic.oup.com/nar/article/40/D1/D136/2903327. 
  19. Mungall, Christopher J.; Batchelor, Colin; Eilbeck, Karen (2011-02-01). «Evolution of the Sequence Ontology terms and relationships». Journal of Biomedical Informatics. Ontologies for Clinical and Translational Research 44 (1): 87–93. doi:10.1016/j.jbi.2010.03.002. ISSN 1532-0464. PMID 20226267. PMC PMC3052763. http://www.sciencedirect.com/science/article/pii/S1532046410000353. 
  20. D’Eustachio, Peter; Hermjakob, Henning; Stein, Lincoln; Wu, Guanming; Weiser, Joel; Viteri, Guilherme; Varusai, Thawfeek; Shorser, Solomon και άλλοι. (2018-01-04). «The Reactome Pathway Knowledgebase» (στα αγγλικά). Nucleic Acids Research 46 (D1): D649–D655. doi:10.1093/nar/gkx1132. ISSN 0305-1048. PMID 29145629. PMC PMC5753187. https://academic.oup.com/nar/article/46/D1/D649/4626770. 
  21. Bridge, Alan; Redaschi, Nicole; Xenarios, Ioannis; Bougueleret, Lydie; Onwubiko, Joseph; Rosanoff, Steven; Moretti, Sébastien; Pagni, Marco και άλλοι. (2017-01-04). «Updates in Rhea – an expert curated resource of biochemical reactions» (στα αγγλικά). Nucleic Acids Research 45 (D1): D415–D418. doi:10.1093/nar/gkw990. ISSN 0305-1048. PMID 27789701. PMC PMC5210663. https://academic.oup.com/nar/article/45/D1/D415/2333936. 
  22. Meldal, Birgit H M; Bye-A-Jee, Hema; Gajdoš, Lukáš; Hammerová, Zuzana; Horáčková, Aneta; Melicher, Filip; Perfetto, Livia; Pokorný, Daniel και άλλοι. (2019-01-08). «Complex Portal 2018: extended content and enhanced visualization tools for macromolecular complexes» (στα αγγλικά). Nucleic Acids Research 47 (D1): D550–D558. doi:10.1093/nar/gky1001. ISSN 0305-1048. https://academic.oup.com/nar/article/47/D1/D550/5144138. 
  23. Karp, Peter D.; Subhraveti, Pallavi; Paley, Suzanne; Ong, Wai Kit; Ong, Quang; Midford, Peter E.; Latendresse, Mario; Krummenacker, Markus και άλλοι. (2018-01-04). «The MetaCyc database of metabolic pathways and enzymes» (στα αγγλικά). Nucleic Acids Research 46 (D1): D633–D639. doi:10.1093/nar/gkx935. ISSN 0305-1048. PMID 29059334. PMC PMC5753197. https://academic.oup.com/nar/article/46/D1/D633/4559117. 
  24. Yon Rhee, Seung; Wood, Valerie; Dolinski, Kara; Draghici, Sorin (2008-7). «Use and misuse of the gene ontology annotations» (στα αγγλικά). Nature Reviews Genetics 9 (7): 509–515. doi:10.1038/nrg2363. ISSN 1471-0056. http://www.nature.com/articles/nrg2363. 
  25. Huntley, Rachael P.; Sitnikov, Dmitry; Orlic-Milacic, Marija; Balakrishnan, Rama; D'Eustachio, Peter; Gillespie, Marc E.; Howe, Doug; Kalea, Anastasia Z. και άλλοι. (2016-02-25). «Guidelines for the functional annotation of microRNAs using the Gene Ontology». RNA 22 (5): 667–676. doi:10.1261/rna.055301.115. ISSN 1355-8382. http://dx.doi.org/10.1261/rna.055301.115. 
  26. Meldal, Birgit H.M.; Forner-Martinez, Oscar; Costanzo, Maria C.; Dana, Jose; Demeter, Janos; Dumousseau, Marine; Dwight, Selina S.; Gaulton, Anna και άλλοι. (2014-10-13). «The complex portal - an encyclopaedia of macromolecular complexes». Nucleic Acids Research 43 (D1): D479–D484. doi:10.1093/nar/gku975. ISSN 1362-4962. http://dx.doi.org/10.1093/nar/gku975. 
  27. «The Gene Ontology's Reference Genome Project: A Unified Framework for Functional Annotation across Species». PLoS Computational Biology 5 (7): e1000431. 2009-07-03. doi:10.1371/journal.pcbi.1000431. ISSN 1553-7358. http://dx.doi.org/10.1371/journal.pcbi.1000431. 
  28. Gaudet, P.; Livstone, M. S.; Lewis, S. E.; Thomas, P. D. (2011-08-27). «Phylogenetic-based propagation of functional annotations within the Gene Ontology consortium». Briefings in Bioinformatics 12 (5): 449–462. doi:10.1093/bib/bbr042. ISSN 1467-5463. http://dx.doi.org/10.1093/bib/bbr042. 
  29. Mitchell, Alex; Chang, Hsin-Yu; Daugherty, Louise; Fraser, Matthew; Hunter, Sarah; Lopez, Rodrigo; McAnulla, Craig; McMenamin, Conor και άλλοι. (2014-11-26). «The InterPro protein families database: the classification resource after 15 years». Nucleic Acids Research 43 (D1): D213–D221. doi:10.1093/nar/gku1243. ISSN 1362-4962. http://dx.doi.org/10.1093/nar/gku1243. 
  30. Geymonat, Marco; Spanos, Ad; Smith, Susan J. M.; Wheatley, Edward; Rittinger, Katrin; Johnston, Leland H.; Sedgwick, Steven G. (2002-06-04). «Control of Mitotic Exit in Budding Yeast». Journal of Biological Chemistry 277 (32): 28439–28445. doi:10.1074/jbc.m202540200. ISSN 0021-9258. http://dx.doi.org/10.1074/jbc.m202540200. 
  31. Chibucos, Marcus C.· Siegele, Deborah A. (4 Νοεμβρίου 2016). Methods in Molecular Biology. New York, NY: Springer New York. σελίδες 245–259. ISBN 9781493937417. 
  32. Chibucos, M. C.; Mungall, C. J.; Balakrishnan, R.; Christie, K. R.; Huntley, R. P.; White, O.; Blake, J. A.; Lewis, S. E. και άλλοι. (2014-07-22). «Standardized description of scientific evidence using the Evidence Ontology (ECO)». Database 2014 (0): bau075–bau075. doi:10.1093/database/bau075. ISSN 1758-0463. http://dx.doi.org/10.1093/database/bau075. 
  33. Grossmann, Steffen; Bauer, Sebastian; Robinson, Peter N.; Vingron, Martin (2007-11-15). «Improved detection of overrepresentation of Gene-Ontology annotations with parent child analysis». Bioinformatics (Oxford, England) 23 (22): 3024–3031. doi:10.1093/bioinformatics/btm440. ISSN 1367-4811. PMID 17848398. https://www.ncbi.nlm.nih.gov/pubmed/17848398. 
  34. Batut, Bérénice; Hiltemann, Saskia; Bagnacani, Andrea; Baker, Dannon; Bhardwaj, Vivek; Blank, Clemens; Bretaudeau, Anthony; Brillet-Guéguen, Loraine και άλλοι. (2018-6). «Community-Driven Data Analysis Training for Biology» (στα αγγλικά). Cell Systems 6 (6): 752–758.e1. doi:10.1016/j.cels.2018.05.012. PMID 29953864. PMC PMC6296361. https://linkinghub.elsevier.com/retrieve/pii/S2405471218302308. 
  35. 35,0 35,1 Nikolaou, Christoforos· Chouvardas, Panagiotis (2015). Υπολογιστική βιολογία. ISBN 9789606031243. 
  36. «Gene Ontology Consortium | Cherry Lab». cherrylab.stanford.edu. Ανακτήθηκε στις 22 Ιουλίου 2019. 
  37. Grüning, Björn; Nekrutenko, Anton; Backofen, Rolf; Taylor, James; Yusuf, Dilmurat; Wubuli, Aisanjiang; Wolfien, Markus; Videm, Pavankumar και άλλοι. (2018-06-27). «Community-Driven Data Analysis Training for Biology» (στα English). Cell Systems 6 (6): 752–758.e1. doi:10.1016/j.cels.2018.05.012. ISSN 2405-4712. PMID 29953864. PMC PMC6296361. https://www.cell.com/cell-systems/abstract/S2405-4712(18)30230-8. 
  38. 38,0 38,1 The Gene Ontology Consortium (2015-01-28). «Gene Ontology Consortium: going forward» (στα αγγλικά). Nucleic Acids Research 43 (D1): D1049–D1056. doi:10.1093/nar/gku1179. ISSN 0305-1048. PMID 25428369. PMC PMC4383973. https://academic.oup.com/nar/article-lookup/doi/10.1093/nar/gku1179. 
  39. Huntley, Rachael P.; Sawford, Tony; Mutowo-Meullenet, Prudence; Shypitsyna, Aleksandra; Bonilla, Carlos; Martin, Maria J.; O'Donovan, Claire (2015-01-28). «The GOA database: Gene Ontology annotation updates for 2015» (στα αγγλικά). Nucleic Acids Research 43 (D1): D1057–D1063. doi:10.1093/nar/gku1113. ISSN 1362-4962. PMID 25378336. PMC PMC4383930. http://academic.oup.com/nar/article/43/D1/D1057/2437623/The-GOA-database-Gene-Ontology-annotation-updates. 

Εξωτερικοί σύνδεσμοι Επεξεργασία