Οντολογία Γονιδίων: Διαφορά μεταξύ των αναθεωρήσεων

Περιεχόμενο που διαγράφηκε Περιεχόμενο που προστέθηκε
Διάσωση 1 πηγών και υποβολή 0 για αρχειοθέτηση.) #IABot (v2.0
μΧωρίς σύνοψη επεξεργασίας
Γραμμή 28:
'''Οντολογία Γονιδίων (Gene Ontology-GO,<ref>http://geneontology.org/</ref>)''' είναι μια [[οντολογία]] που περιέχει πληροφορίες σχετικά με γονίδια, τις λειτουργίες και τις σχέσεις μεταξύ τους με ένα δομημένο τρόπο. Τα δύο κύρια συστατικά της GO είναι η οντολογία αυτή καθ’αυτή (Ontology) που περιέχει τους όρους (terms) που περιγράφουν την λειτουργία των γονιδίων (gene function) και οι αντίστοιχες υποσημειώσεις (annotations). Στην τελευταία έκδοση (2019) είναι καταχωρημένοι 44.945 όροι (GO terms), 6.408.283 GO annotations, ενώ αφορούν 1.155.213 γονιδιακά προϊόντα 4.467 ειδών.<ref name=":10" /><ref name=":7" />
 
== Εισαγωγικά Στοιχεία: ==
Το '''GO (gene ontology)''' αποτελεί το κύημα της μεγαλύτερης προσπάθειας στο πεδίο της βιοπληροφορικής μέχρι στιγμής, όσον αφορά σε βάσεις δεδομένων γονιδιακής πληροφορίας, που σχεδιάστηκε με απώτερο σκοπό την αποσαφήνιση σύνθετων βιολογικών ερωτημάτων. Πρόκειται για μια αυτοτελή βιοπληροφορική πλατφόρμα που προσπαθεί να συσχετίσει εννοιολογικά, διάφορα επιμέρους βιολογικά στοιχεία, χρησιμοποιώντας κωδικοποιημένο λεξιλόγιο. Η μεγαλύτερη δυσκολία που καλούνται να αντιμετωπίσουν οι χρήστες του είναι η επισκόπηση της ευστάθειας τόσο των υπαρχόντων δεδομένων, όσο και των προστιθέμενων, καθώς επίσης και η ανάγκη της συνεχούς αναδιάρθρωσης και επαναξιολόγησης των υποσημειώσεων (annotations) ούτως ώστε να ικανοποιούν τα κριτήρια της σωστής λειτουργίας της πλατφόρμας.<ref name=":4">{{Cite journal|title=How the gene ontology evolves|url=https://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-12-325|journal=BMC Bioinformatics|date=2011-12|issn=1471-2105|pmc=PMC3166943|pmid=21819553|volume=12|issue=1|doi=10.1186/1471-2105-12-325|language=en|first=Sabina|last=Leonelli|first2=Alexander D|last2=Diehl|first3=Karen R|last3=Christie|first4=Midori A|last4=Harris|first5=Jane|last5=Lomax}}</ref> Η ανάγκη αυτή γίνεται ακόμη πιο επιτακτική αν αναλογιστεί κανείς ότι η αύξηση του όγκου των διάφορων βιολογικών δεδομένων συμβαίνει με τρόπο ιλιγγιώδη, αλλά και απρόβλεπτο. Με το πέρασμα του χρόνου έχουν αναπτυχθεί πιο ευαίσθητοι αλγόριθμοι για τον έλεγχο της ποιότητας των επιμέρους στοιχείων των δεδομένων που καταχωρούνται.<ref name=":5">{{Cite journal|title=The what, where, how and why of gene ontology--a primer for bioinformaticians|url=https://academic.oup.com/bib/article-lookup/doi/10.1093/bib/bbr002|journal=Briefings in Bioinformatics|date=2011-11-01|issn=1467-5463|pmc=PMC3220872|pmid=21330331|pages=723–735|volume=12|issue=6|doi=10.1093/bib/bbr002|language=en|first=L.|last=du Plessis|first2=N.|last2=Skunca|first3=C.|last3=Dessimoz}}</ref>
 
Η μεγάλη καινοτομία του GO έγκειται στη χρήση ειδικού λεξιλογίου, το οποίο επιτρέπει τόσο την εξειδικευμένη πλοήγηση στις βάσεις δεδομένων που φιλοξενεί, αλλά και την άνθιση ενός πληθωρικού πληροφοριακά συστήματος δικτύου, που δίνει τη δυνατότητα στους βιολόγους να οπτικοποιήσουν και να ποσοτικοποιήσουν πληθώρα διαφορετικών κυτταρικών διεργασιών. Το μεγάλο πλεονέκτημα της GO σε σχέση με τα προϋπάρχοντα προγράμματα βιοπληροφορικής είναι το φιλικό στο χρήστη και παράλληλα παραγωγικό λεξιλόγιο που θα τον διευκολύνει. Μια επίσης καίρια εξέλιξη είναι η δημιουργία λεξιλογίου που συνδέει διαφορετικά είδη οργανισμών μεταξύ τους, επιτρέποντας τη συσχέτιση των κοινών βιολογικών όρων που συναντώνται στους οργανισμούς αυτούς. <ref name=":5" /><ref name=":7">{{Cite journal|title=Gene Ontology: tool for the unification of biology|url=http://www.nature.com/articles/ng0500_25|journal=Nature Genetics|date=2000-5|issn=1061-4036|pmc=PMC3037419|pmid=10802651|pages=25–29|volume=25|issue=1|doi=10.1038/75556|language=en|first=Michael|last=Ashburner|first2=Catherine A.|last2=Ball|first3=Judith A.|last3=Blake|first4=David|last4=Botstein|first5=Heather|last5=Butler|first6=J. Michael|last6=Cherry|first7=Allan P.|last7=Davis|first8=Kara|last8=Dolinski|first9=Selina S.|last9=Dwight}}</ref>
 
== Ιστορικά Στοιχεία: ==
Η σύλληψη του Gene Ontology σαν ιδέα, έλαβε χώρα το 1998, όταν ένα σύνολο επιστημόνων της βιολογίας με διαφορετικά υπόβαθρα και ενδιαφέροντα, αποφάσισαν πως η σύνδεση των επιμέρους ερευνών τους με ένα σύστημα εύστοχων βιοπληροφορικών συνδέσεων θα μπορούσε να αποτελέσει το εκμαγείο για μια ευρέως χρησιμοποιούμενη εφαρμογή στο χώρο της γενετικής και όχι μόνο. Οι ερευνητές παρέθεσαν μια σειρά στοιχείων και επιχειρημάτων για να υποστηρίξουν την ιδέα τους αυτή, με κεντρικό άξονα την ανάγκη εκσυγχρονισμού της ταχέως αναπτυσσόμενης βιολογίας από την εποχή που οι Watson και Crick ανακάλυψαν τη δομή του DNA. Ο επικεφαλής αυτού του εγχειρήματος ήταν ο βιολόγος Michael Ashburner.<ref name=":6">{{Cite journal|title=Gene Ontology: looking backwards and forwards|url=https://doi.org/10.1186/gb-2004-6-1-103|journal=Genome Biology|date=2004-12-15|issn=1474-760X|pmc=PMC549054|pmid=15642104|pages=103|volume=6|issue=1|doi=10.1186/gb-2004-6-1-103|first=Suzanna E.|last=Lewis}}</ref> Η ιδέα αρχικά περιελάμβανε προοπτικές μόνο για οργανισμούς μοντέλα, των οποίων το γονιδίωμα είχε αλληλουχηθεί πλήρως, ενώ δε θα διέθετε καθόλου προκαρυωτικούς οργανισμούς κατά το πρώτο στάδιο λειτουργίας. Στο παρελθόν είχε γίνει παρόμοια απόπειρα κατηγοριοποίησης των λειτουργιών διαφορετικών ευκαρυωτικών ενζύμων, ποτέ όμως δεν είχε επιχειρηθεί ένα τόσο μεγάλο πόνημα σαν αυτήν την προσπάθεια. Η ιδέα του Ashburner ήταν η εξής: ένα σύστημα βιοπληροφορικής το οποίο θα χρησιμοποιούσε ευέλικτο και κατανοητό λεξιλόγιο που θα συνδέει διαφορετικούς οργανισμούς μοντέλα με την αναζήτηση στοιχείων γι' αυτά μέσω της αναγνώρισης ειδικών υποσημειώσεων (annotations).<ref name=":5" /> Έτσι αρχικά συμπεριλήφθηκαν ο οργανισμοί ''Drosophila melanogaster'' (φρουτόμυγα), ''Mus musculus'' (ποντίκι) και ''Saccharomyces cerevisiae'' (ζύμη).
 
Γραμμή 98:
Η διαδικασία που εκτελεί ένα μακρομόριο μέσω φυσικών αλληλεπιδράσεων με άλλες μοριακές οντότητες. Σχετίζεται με τη βιοχημεία (πρόσδεση ή κατάλυση μιας αντίδρασης) ή αναφέρεται στο γενικό ρόλο του μορίου ως μέρος ενός ευρύτερου συστήματος ή διαδικασίας (π.χ. πρωτεΐνες-υποδοχείς). <ref name=":3" />
 
'''Κυτταρικός Εντοπισμός (Cellular Component):'''
 
Η θέση στο κύτταρο όπου εντοπίζεται ένα μακρομόριο που εκτελεί μια συγκεκριμένη μοριακή λειτουργία. Πιθανές θέσεις είναι είτε κοντά σε κυτταρικές δομές (π.χ. πλασματική μεμβράνη) ή κυτταρικά διαμερίσματα (π.χ. μιτοχόνδρια), είτε τα σταθερά μακρομοριακά σύμπλοκα στα οποία συμμετέχουν (π.χ. ριβοσώματα). <ref name=":3" />
 
'''Βιολογική διαδικασία (Biological Process):'''
 
Είναι οι σημαντικές, γενετικά προγραμματισμένες λειτουργίες του οργανισμού που τις καθορίζει το αποτέλεσμα που επιφέρουν (π.χ. κυτταρική διαίρεση). Η διεξαγωγή καθεμιάς από αυτές απαιτεί την πραγματοποίηση πολλών μοριακών διαδικασιών που υπόκεινται σε αυστηρό έλεγχο και χρονική διευθέτηση. Τα γονιδιακά προϊόντα μπορεί να συμμετέχουν άμεσα στη διαδικασία ή να την επηρεάζουν έμμεσα μέσω ελέγχου ή συμμετοχής σε άλλη προαπαιτούμενη διαδικασία. <ref name=":3" />
Γραμμή 114:
Οι '''υποσημειώσεις''' ('''GO annotations''') συνιστούν μια σχέση μεταξύ γονιδίου και ενός όρου GO, με στοιχεία υπό τη μορφή ενός «αποδεικτικού κώδικα GO» από δημοσιευμένα άρθρα ή μιας δημοσιευμένης αναφοράς ή μιας περιγραφής της μεθοδολογίας που χρησιμοποιήθηκε για τη δημιουργία του σχολιασμού. Ωστόσο, όλες οι υποσημειώσεις GO εν τέλει υποστηρίζονται από την επιστημονική βιβλιογραφία άμεσα ή έμμεσα. Οι αποδεικτικοί κώδικες GO περιγράφουν τη διαφορά ενός θεωρητικού annotation με την πραγματική πειραματική απόδειξη, τα οποία εξετάζονται από εμπειρογνώμονα βιολόγο - προγραμματιστή δεδομένων.
 
===Πειραματικά υποστηριζόμενα Annotations:===
Οι αποδεικτικοί κώδικες EXPerimental (EXP) δείχνουν ότι υπάρχουν στοιχεία από ένα πείραμα που υποστηρίζουν άμεσα το ''annotation'' του γονιδίου. Για παράδειγμα, μια συσχέτιση μεταξύ ενός γονιδιακού προϊόντος και του υποκυτταρικού εντοπισμού του, όπως προσδιορίζεται από τον ανοσοφθορισμό, θα υποστηρίζεται από τον αποδεικτικό κώδικα ''Inferred from Direct Assay'' (IDA) και από έναν υπότυπο των στοιχείων EXP. Οι υποσημειώσεις με άμεσες πειραματικές αποδείξεις δημιουργούνται από τους βιολόγους και από τους διδακτορικούς υποψηφίους εξειδικευμένους σε προγράμματα υπολογιστών, οι οποίοι διαβάζουν βιβλία που έχουν αξιολογηθεί από ομότιμους και δημιουργούν GO ''annotations,'' όπως δικαιολογούνται από τα στοιχεία που παρουσιάζονται σε αυτά τα άρθρα.
 
Γραμμή 125:
Επιπροσθέτως, για τη δημιουργία δικτύων αλληλεπίδρασης πρωτεϊνών, οι χρήστες πρέπει να χρησιμοποιήσουν το πεδίο 'with' των Αρχείων Σύνδεσης GO (GAF), το οποίο περιέχει το αναγνωριστικό του δεσμευτή αλληλεπίδρασης. Ζητούμε από τους χρήστες να γνωρίζουν τα ''annotations'' που δηλώνουν ότι μια συγκεκριμένη γκάμα έχει αποκτήσει τη λειτουργία. Η απαρίθμηση NOT γενικά δημιουργείται όταν ένα γονιδιακό προϊόν με συγκεκριμένη περιοχή ή ένωση γονιδιακής οικογένειας αναμένεται ότι έχει κάποια δραστηριότητα, αλλά όπου υπάρχουν ρητά πειραματικά δεδομένα δείχνει ότι το γονιδιακό προϊόν <u>ΔΕΝ</u> έχει αυτή τη δραστηριότητα. Τα annotations είναι σχετικά σπάνια βάση των γνώσεων (επί του παρόντος υπάρχουν περίπου <u>3300</u> από αυτές, βασισμένες σε πειραματικά δεδομένα). Ωστόσο, πιστεύεται ότι μπορεί να είναι ιδιαίτερα χρήσιμες σε ορισμένες εφαρμογές, όπως η αξιολόγηση της λειτουργικότητας της ακρίβειας της διαδικασίας. Τα annotations αυτά έχουν τον χαρακτηρισμό «ΝΟΤ» στο πεδίο προσδιορισμού GAF.
 
===Φυλογενετικά υποστηριζόμενα Αnnotations :===
Οι Φυλογενετικές αρχές, αναδημιουργώντας εξελικτικά γεγονότα για να συναγάγουν σχέσεις μεταξύ των γονιδίων<ref>{{Cite journal|title=The Gene Ontology's Reference Genome Project: A Unified Framework for Functional Annotation across Species|url=http://dx.doi.org/10.1371/journal.pcbi.1000431|journal=PLoS Computational Biology|date=2009-07-03|issn=1553-7358|pages=e1000431|volume=5|issue=7|doi=10.1371/journal.pcbi.1000431}}</ref>, παρέχουν έναν ισχυρό τρόπο απόκτησης γνώσεων σχετικά με τη γονιδιακή λειτουργία. Εν συντομία, αναπτύχθηκε λογισμικό (''PAINT'', Φυλογενετικό Εργαλείο Σχολιασμού Συμπερασμάτων) με το οποίο ένας προγραμματιστής βιολογικών δεδομένων μπορεί να δει όλα τα πειραματικά ''annotations'' για γονίδια σε μια οικογένεια γονιδίων και να χρησιμοποιήσει αυτές τις πληροφορίες για να συναγάγει ''annotations'' για μη χαρακτηρισμένα μέλη της οικογένειας<ref>{{Cite journal|title=Phylogenetic-based propagation of functional annotations within the Gene Ontology consortium|url=http://dx.doi.org/10.1093/bib/bbr042|journal=Briefings in Bioinformatics|date=2011-08-27|issn=1467-5463|pages=449–462|volume=12|issue=5|doi=10.1093/bib/bbr042|first=P.|last=Gaudet|first2=M. S.|last2=Livstone|first3=S. E.|last3=Lewis|first4=P. D.|last4=Thomas}}</ref>. Ο προγραμματιστής βιολόγος έπειτα δημιουργεί ένα σαφές μοντέλο κέρδους και απώλειας γονιδιακής λειτουργίας σε συγκεκριμένους κλάδους σε ένα φυλογενετικό δέντρο της οικογένειας. Αυτό το πρότυπο χρησιμοποιείται για να συναχθούν νέα ''annotations'' (δεν υπάρχει αλληλεπικάλυψη με πειραματικές υποσημειώσεις) για γονίδια στην οικογένεια.
 
Φυλογενετικά ''annotations'' σημειώνονται από τους κώδικες αποδεικτικών στοιχείων '''''IBA''''' (Inferred from Biological Ancestry). Κάθε συνήθης υποσημείωση μπορεί να εντοπιστεί στους άμεσα πειραματικά ''annotations'' που χρησιμοποιήθηκαν ως βάση για αυτόν τον ισχυρισμό. Το πρόγραμμα Phylogenetic Commenting GO είναι πλέον η μεγαλύτερη πηγή χειρωνακτικά σχολιασμένων παρατηρήσεων στη βάση δεδομένων GO και έχει αυξήσει σημαντικά τον αριθμό ''annotations'' ακόμη και σε οργανισμούς που έχουν μελετηθεί καλά πειραματικά .
 
===Υπολογιστικά υποστηριζόμενα Αnnotations:===
Εν κατακλείδι, αυτά που απομακρύνονται από τα άμεσα πειραματικά ευρήματα, αποτελούν τους ηλεκτρονικούς κώδικες αποδεικτικών στοιχείων (IEA), οι οποίοι δεν εξετάζονται μεμονωμένα (αν και γενικά υπάρχει εκτεταμένη χειρωνακτική ανασκόπηση ενός δείγματος). Τα ''annotations'' που υποστηρίζονται από τον '''''IEA''''' βασίζονται τελικά είτε στην ομολογία είτε και σε άλλες πειραματικές πληροφορίες ή πληροφορίες αλληλουχίας, αλλά γενικά δεν μπορούν να ανιχνευθούν στην πειραματική πηγή. Τρεις μέθοδοι αποτελούν το μεγαλύτερο μέρος αυτών των υποσημειώσεων. Η πρώτη και πιο ολοκληρωμένη μέθοδος είναι η '''''InterPro2GO'''''<ref>{{Cite journal|title=The InterPro protein families database: the classification resource after 15 years|url=http://dx.doi.org/10.1093/nar/gku1243|journal=Nucleic Acids Research|date=2014-11-26|issn=1362-4962|pages=D213–D221|volume=43|issue=D1|doi=10.1093/nar/gku1243|first=Alex|last=Mitchell|first2=Hsin-Yu|last2=Chang|first3=Louise|last3=Daugherty|first4=Matthew|last4=Fraser|first5=Sarah|last5=Hunter|first6=Rodrigo|last6=Lopez|first7=Craig|last7=McAnulla|first8=Conor|last8=McMenamin|first9=Gift|last9=Nuka}}</ref> , η οποία βασίζεται στην επιμελημένη συσχέτιση ενός όρου GO με ένα γενικευμένο μοντέλο αλληλουχίας («χαρακτηριστική υπογραφή») μιας ομάδας ομόλογων πρωτεϊνών. Οι αλληλουχίες πρωτεϊνών με στατιστικά σημαντική αντιστοιχία με σε μια υπογραφή ανατίθενται οι όροι GO που σχετίζονται με την υπογραφή, μια μορφή ομολογίας. Μια δεύτερη μέθοδος είναι η υπολογιστική μετατροπή των ελεγχόμενων όρων της '''''UniProt''''' (κυρίως οι αριθμοί της ενζυμικής ομάδας που περιγράφουν τις ενζυμικές δραστηριότητες και οι λέξεις-κλειδιά UniProt που περιγράφουν τις υποκυτταρικές θέσεις), στους σχετικούς όρους GO. Τέλος, τα ''annotations'' γίνονται με βάση τα ορθόλογα 1:1 που συνάγονται από τα γονιδιακά δέντρα, μια προσέγγιση που μεταφέρει αυτόματα τις παρατηρήσεις που βρέθηκαν πειραματικά σε ένα γονίδιο, σε ορθόλογα 1:1 στην ίδια ταξινομική κατηγορία.
 
=== Από τα Αnnotations στα Βιολογικά Μοντέλα (LEGO): ===
Η δομή των υποσημειώσεων GO είναι  αρκετά απλή, μια κατάσταση  που αποτελείται από ένα γονίδιο και έναν όρο GO (με τα αποδεικτικά στοιχεία αυτής της σύνδεσης, όπως περιγράφεται παραπάνω).