Η ανάπτυξη των τεχνολογιών υψηλής απόδοσης σε συνδυασμό με την δυνατότητα των ηλεκτρονικών υπολογιστών να αναλύουν μεγάλο όγκο δεδομένων έδωσε ώθηση στους επιστήμονες να καταχωρήσουν και να εντάξουν μεγάλο όγκο βιολογικών δεδομένων σε εξειδικευμένες βάσεις. Η βάση δεδομένων STRING (The Search Tool for the Retrieval of Interacting Genes) είναι μια διαδικτυακή βάση που παρέχει πληροφορίες σχετικά με αλληλεπιδράσεις πρωτεϊνών: είτε άμεσες (φυσικές) είτε έμμεσες (λειτουργικές), συνοψίζοντας τόσο πειραματικά δεδομένα όσο και υπολογιστικές προβλέψεις καθώς και δημόσια αναζήτηση κειμένου.[1][2]

Περιεχόμενο
Περιγραφή Εργαλείο αναζήτησης δεδομένων αλληλεπιδράσεων γονιδίων/ πρωτεϊνών
Επικοινωνία
Κέντρο ερευνών Επιστημονική κοινοπραξία
Κύρια παραπομπή PMID 25352553
Πρόσβαση
Ιστοσελίδα STRING
Διεύθυνση λήψεων STRING DOWNLOAD
Διεύθυνση διαδικτυακών υπηρεσιών STRING HELP
Διάφορα
Τρέχουσα έκδοση 10.0 (16 Απριλίου 2016)

Οι πρωτεΐνες είναι μεγαλομόρια που συμμετέχουν σε πολλές κυτταρικές διεργασίες, από την μεταφορά της πληροφορίας από το εξωκυττάριο περιβάλλον μέχρι την γενετική πληροφορία μέσω των mRNA. Για να γίνουν επομένως αντιληπτές οι κυτταρικές διεργασίες και ο τρόπος λειτουργίας του κυττάρου είναι σημαντικό να γνωρίζει κανείς τον ρόλο των  πρωτεϊνών και τις μεταξύ τους αλληλεπιδράσεις, καθώς και τις αλληλεπιδράσεις με άλλα μόρια του κυττάρου. Θα πρέπει να τονισθεί ότι μόνο τα τελευταία χρόνια άρχισε να γίνεται αντιληπτό ότι πολλές ασθένειες, όπως το Alzheimer, το Parkinson και καρδιαγγειακές βλάβες οφείλονται στην δυσλειτουργία των πρωτεϊνών. [3] Επομένως, το ενδιαφέρον των επιστημόνων προς την συλλογή και κατάταξη των πληροφοριών σχετικά με την συμπεριφορά των πρωτεϊνών, τόσο σε υγιή κύτταρα όσο και σε ασθενή θεωρείται επιβεβλημένο. Οι πειραματικές και κλινικές παρατηρήσεις σε συνδυασμό με τα μαθηματικά πρότυπα και οι προσομοιώσεις της συμπεριφοράς των πρωτεϊνών θα συμβάλλουν στην αντίληψη των βλαβών που προκαλούνται είτε από την γήρανση είτε από την ανάπτυξη των ασθενειών. Ο απώτερος στόχος των επιστημόνων είναι η ανάπτυξη μιας κοινής βάσης δεδομένων, στην οποία θα συμπεριλαμβάνονται οι βιοχημικές παρατηρήσεις και οι θεωρητικές προσομοιώσεις της συμπεριφοράς των πρωτεϊνών ώστε να γίνουν προβλέψεις για τη συστημική προσέγγιση των λειτουργιών τους και προφανώς την πρόληψη των ασθενειών.

Η τελευταία έκδοση της STRING 10.0 περιέχει πληροφορίες για πάνω από 2.000 οργανισμούς ταξινομημένες σε οικογένειες με βάση τα διαφορετικά επίπεδα φυλογενετικής ανάπτυξης και μέσα από ένα σύστημα ανάκτησης δεδομένων υπολογίζει με τη χρήση ενός αλγόριθμου ένα σκορ εμπιστοσύνης για τις πιθανές αλληλεπιδράσεις και τις σχέσεις που διέπουν τις πρωτεΐνες.[1]

Η περιγραφή των σχέσεων γίνεται συνήθως με δίκτυο πρωτεϊνικών αλληλεπιδράσεων, το οποίο αναπαρίσταται σαν ένας μη κατευθυνόμενος, αβαρής γράφος G(V,E), με τις πρωτεΐνες σαν σύνολο κόμβων V και τις αλληλεπιδράσεις μεταξύ τους σαν σύνολο ακμών Ε, προσεγγίζοντας έτσι ολιστικά το σύστημα και δίνοντας στο χρήστη τη δυνατότητα ανάκτησης όλων των πληροφοριών που αφορούν τις μελετώμενες σχέσεις.[4] Σημαντικό είναι να αναφερθεί ότι ο χαρακτηρισμός των πρωτεϊνών που βρίσκεται στη βάση και η ταξινόμηση των σχημάτων γίνεται βάση της σημαντικότητας των σχέσεων που διέπουν τις πρωτεΐνες, όπως σε φυσικά σύμπλοκα, είτε σηματοδοτικά μονοπάτια, είτε σε αρθρώματα. Επιπλέον, η βάση αυτή χρησιμοποιείται για την εμφάνιση λειτουργικών εμπλουτισμών στις πρωτεϊνικές λίστες, χρησιμοποιώντας πληθώρα συστημάτων λειτουργικής ταξινόμησης, όπως GO, Pfam και KEGG. Η STRING έχει αναπτυχθεί από μια κοινοπραξία των ακαδημαϊκών ιδρυμάτων, συμπεριλαμβανομένων CPREMBLKUSIBTUD και UZH.

Εφαρμογές Επεξεργασία

Οι αλληλεπιδράσεις μεταξύ των πρωτεϊνών δημιουργούν δίκτυα, η κατανόηση των οποίων είναι απαραίτητη για να αντιληφθούμε τις διάφορες κυτταρικές διεργασίες σε επίπεδο συστήματος. Αυτά τα δίκτυα μπορούν να χρησιμοποιηθούν στη διαλογή και την αξιολόγηση δεδομένων γονιδιωματικής ανάλυσης και στην παροχή μιας πλατφόρμας καταγραφής των δομικών, λειτουργικών και εξελικτικών ιδιοτήτων των πρωτεϊνών. Η μελέτη των προβλεπόμενων δικτύων αλληλεπίδρασης θα ανοίξει νέες οδούς στην πειραματική έρευνα μέσω της δημιουργίας δια-ειδικών προβλέψεων για την πιο αποτελεσματική χαρτογράφηση των αλληλεπιδράσεων αυτών.[5]

Για την πρόβλεψη των αλληλεπιδράσεων μεταξύ των πρωτεϊνών χρησιμοποιούνται διάφοροι αλγόριθμοι, οι οποίοι παρέχουν τόσο ήδη γνωστές όσο και προβλέψεις πιθανών αλληλεπιδράσεων όπως GeneMANIA, FunCoup, I2D, ConsensusPathDB, PRISN, PrePPI, PIPs, DIMA κ.ά.. Ανάμεσα σε αυτούς, η STRING εστιάζει στο βαθμό εμπιστοσύνης των αλληλεπιδράσεων αυτών, στην εκτενή κάλυψη πληροφοριών όπως τον αριθμό των πρωτεϊνών, το είδος του οργανισμού και τη μέθοδος πρόβλεψης και στη δέσμευση διατήρησης μια μακροχρόνιας και σταθερής πηγής πληροφοριών από το 2000 προσφέροντας μια διαισθητική διεπαφή στο χρήστη.

 
Δίκτυο αλληλεπίδρασης πρωτεϊνών όπως απεικονίζεται στη STRING. Σε αυτή την εικόνα, ο κορεσμός χρωμάτων στα άκρα αντιπροσωπεύει τον βαθμό εμπιστοσύνης μιας λειτουργικής συσχέτισης

Ακριβώς επειδή καλύπτει όλα τα είδη αλληλεπιδράσεων (σταθερές φυσικές σχέσεις, παροδική δέσμευση, αλυσιδωτή αντίδραση υποστρώματος, αναμετάδοση λειτουργιών κ.ά.), η STRING αποτελεί ένα από τα πιο χρήσιμα εργαλεία για λειτουργικές μελέτες σε παγκόσμια κλίμακα.[1]

Χαρακτηριστικά Επεξεργασία

Η αναζήτηση μπορεί να πραγματοποιηθεί για μία (ή περισσότερες πρωτεΐνες) μέσω του ονόματος της ή της αμινοξικής της αλληλουχίας σε κάθε διαθέσιμη διάταξη (format), με δυνατότητα επιλογής του οργανισμού υπό μελέτη. Υπάρχουν 2 τρόποι αναζήτησης στην STRING, ο πρωτεϊνικός (protein mode), με τον οποίο γίνεται αναζήτηση βάσει πρωτεϊνικής οικογένειας, και ο «COG», με τον οποίο γίνεται αναζήτηση βάσει κατηγοριοποίησης των πρωτεϊνών με διαφορετικά κριτήρια.

Μετά τη στάθμιση και ενσωμάτωση των εισαγόμενων δεδομένων υπολογίζεται ένα σκορ εμπιστοσύνης για όλες τις πρωτεϊνικές αλληλεπιδράσεις και τα αποτελέσματα απεικονίζονται σε μορφή γράφου. Θα πρέπει να σημειωθεί ότι οι αποστάσεις μεταξύ των κόμβων στο γράφο δεν απεικονίζουν κάποια πληροφορία. Επίσης, αν και ο αλγόριθμος είναι ντετερμινιστικός (τα ίδια δεδομένα εισαγωγής θα δίνουν το ίδιο αποτέλεσμα), η προσθήκη π.χ. νέων κόμβων στο δίκτυο προκαλεί αλλαγές και άρα διαφορετική δομή γράφου.

Το σκορ της ελάχιστης απαιτούμενης αλληλεπίδρασης χρησιμοποιεί ένα κατώφλι από το σκορ εμπιστοσύνης, έτσι ώστε τιμές κάτω από αυτό να αποκλείονται από την πρόβλεψη. Ένα χαμηλό σκορ μπορεί να σημαίνει περισσότερες αλληλεπιδράσεις, αλλά ταυτόχρονα σημαίνει και περισσότερα ψευδοθετικά αποτελέσματα. Το σκορ εμπιστοσύνης είναι η κατά προσέγγιση πιθανότητα της ύπαρξης της προβλεπόμενης σύνδεσης μεταξύ δύο ενζύμων στο ίδιο μεταβολικό χάρτη στη βάση δεδομένων KEGG. Τα όρια εμπιστοσύνης τίθενται ως εξής:

  • χαμηλής εμπιστοσύνης - 0.15
  • μεσαίας εμπιστοσύνης - 0.4
  • υψηλής εμπιστοσύνης - 0.7
  • υψηλότερης εμπιστοσύνης - 0.9

Στην κεντρική εφαρμογή της STRING μπορούν να χρησιμοποιηθούν και διαδραστικές λειτουργίες, όπως η αυτόματη διάταξη κατά την οποία ο αλγόριθμος λειτουργεί επαναληπτικά προκειμένου να τοποθετηθούν οι κόμβοι με μια "προτιμώμενη απόσταση" μεταξύ τους, ανάλογη με τη συνολική βαθμολογία της STRING και η ομαδοποίηση των απεικονιζόμενων πρωτεϊνών, όπου εφαρμόζονται δύο διαφορετικοί αλγόριθμοι (K-Means και MCL). Σε αυτή τη λειτουργία πρέπει να εισαχθεί ο πίνακας αποστάσεων που προκύπτει από τις γενικές βαθμολογίες STRING, έτσι ώστε πρωτεΐνες που αλληλεπιδρούν και εμφανίζουν υψηλότερο ολικό σκορ είναι πιο πιθανό να καταλήξουν στην ίδια ομάδα. Αναλυτικά οι δυνατότητες που παρέχονται εμφανίζονται στο μενού βοήθειας της STRING.

 
Ένα δίκτυο αλληλεπίδρασης πρωτεϊνών της STRING, το οποίο φορτώθηκε στο Cytoscape. Η αρχική πρωτεΐνη αναζήτησης για αυτό το δίκτυο ήταν η πρωτεϊνική κινάση 1 εξαρτώμενη από κυκλίνες (CDK1), το είδος ήταν ο άνθρωπος (Homo sapiens), και το κατώφλι (score cutoff) ήταν 0,4.

Οι προβλεφθείσες αλληλεπιδράσεις προστίθενται και σε πρωτεΐνες άλλων οργανισμών για τις οποίες η αλληλεπίδραση έχει περιγραφεί με συμπεράσματα βάσει ορθολογίας. Τα αποτελέσματα είναι διαθέσιμα σε διαδικτυακή μορφή προκειμένου να υπάρχει εύκολη πρόσβαση και να επιτρέπει μια γρήγορη επισκόπηση αυτών των δεδομένων. Στη συγκεκριμένη ιστοσελίδα είναι επίσης διαθέσιμο ένα plug-in, ώστε να χρησιμοποιούνται τα δεδομένα στο πρόγραμμα του Cytoscape. Μια άλλη πρόσβαση στα δεδομένα της STRING μπορεί να γίνει μέσω διεπαφής προγραμματισμού εφαρμογών (API) μέσω της κατάλληλης διαδικτυακής διεύθυνσης. Με την έκδοση 10.0, είναι πλέον διαθέσιμη η άμεση πρόσβαση στα δεδομένα μέσω προγραμματιστικού περιβάλλοντος της γλώσσας R.[1]

Πηγές Δεδομένων Επεξεργασία

Η STRING είναι μία βάση δεδομένων γνωστών και προβλεπόμενων αλληλεπιδράσεων πρωτεϊνών. Οι αλληλεπιδράσεις αυτές περιλαμβάνουν άμεσους (φυσικούς) και έμμεσους (λειτουργικούς) συσχετισμούς και προέρχονται από υπολογιστικές προβλέψεις, από μεταφορά γνώσεων μεταξύ οργανισμών αλλά και από άλλες πρωταρχικές βάσεις δεδομένων.[5][6][7][8]

Πιο συγκεκριμένα, οι 5 κυριες πηγές των αλληλεπιδράσεων της STRING είναι:

  • Προβλέψεις γονιδιωματικού περιεχομένου
  • Εργαστηριακά πειράματα μεγάλης κλίμακας
  • Συντηρημένη συν-έκφαση
  • Αυτοματοποιημένη εξόρυξη κειμένου
  • Προϋπάρχουσα γνώση σε άλλες βάσεις δεδομένων

Προβλέψεις γονιδιωματικού περιεχομένου Επεξεργασία

Στην κατηγορία αυτή ανήκουν τρία (3) κανάλια πρόβλεψης: το κανάλι γειτνίασης, το κανάλι ένωσης και το κανάλι συν-εμφάνισης. Η λειτουργία των καναλιών αυτών σχετίζεται κυρίως με τα βακτήρια και τα αρχαία.

Στο κανάλι γειτνίασης, τα γονίδια λαμβάνουν ένα σκορ συσχέτισης όταν αυτά παρατηρούνται συχνά το ένα στο γειτονικό γονιδίωμα του άλλου (όπως συμβαίνει και στην περίπτωση των συντηρημένων και συμεταφραζόμενων οπερονίων).

Στο κανάλι ένωσης, τα ζεύγη πρωτεϊνών λαμβάνουν ένα σκορ συσχέτισης όταν τουλάχιστον σε ένα οργανισμό τα ορθόλογά τους έχουν ενωθεί σε ένα ενιαίο γονίδιο το οποίο κωδικοποιεί την πρωτεΐνη.

Στο κανάλι συν-εμφάνισης, η STRING αξιολογεί την φυλογενετική κατανομή των ορθόλογων όλων των πρωτεϊνών σε ένα δεδομένο οργανισμό. Αν δύο πρωτεϊνες επιδείξουν υψηλή ομοιότητα σε αυτή την κατανομή (αν δηλαδή τα ορθόλογά τους τείνουν να παρατηρούνται παρόντα ή απόντα στους ίδιους οργανισμούς), τότε ένα σκορ συσχέτισης τους αυξάνεται.

Εργαστηριακά πειράματα μεγάλης κλίμακας Επεξεργασία

Στο κανάλι πειραμάτων, οι αποδείξεις προέρχονται από πειράματα τα οποία λαμβάνουν χώρα στο εργαστήριο είτε αυτά είναι βιοχημικά, βιοφυσικά ή γενετικά. Αυτό το κανάλι αποτελείται κυρίως από βάσεις δεδομένων πρωταρχικών αλληλεπιδράσεων, οι οποίες έχουν οργανωθεί από την IMEx και την BioGRID.

Συντηρημένη συν-έκφραση Επεξεργασία

Σε αυτό το κανάλι τα δεδομένα γονιδιακής έκφρασης, τα οποία προέρχονται από πειράματα, κανονικοποιούνται, περνούν από ένα στάδιο εκκαθάρισης των περιττών πληροφοριών και, στη συνέχεια, συσχετίζονται μεταξύ τους. Ζεύγη πρωτεϊνών τα οποία έχουν συνεχώς παρόμοια μοτίβα έκφρασης, κάτω από μία ποικιλία συνθηκών, θα λάβουν υψηλό σκορ συσχετισμού. Πλέον στην έκδοση της STRING 10.5 είναι δυνατή η επεξεργασία δεδομένων τόσο μεγάλης κλίμακας μικροσυστοιχιών, όσο και έκφρασης αλληλούχισης RNA. Με αυτόν τον τρόπο, γίνεται εφικτή η ανάλυση δεδομένων για επιπλέον 16 οργανισμούς.

Αυτοματοποιημένη εξόρυξη κειμένου Επεξεργασία

Με βάση το κανάλι εξόρυξης κειμένου, η STRING ψάχνει για αναφορές του ονόματος της πρωτεΐνης σε όλες τις περιλήψεις της PubMed σε μια συλλογή με περισσότερα από τρία εκατομμύρια άρθρα. Τα ζεύγη των πρωτεϊνών τα οποία αναφέρονται συχνά μαζί σε περιλήψεις ή και ολόκληρα άρθρα, λαμβάνουν ένα σκορ συσχετισμού.

Προϋπάρχουσα γνώση σε άλλες βάσεις δεδομένων Επεξεργασία

Σε αυτό το κανάλι, η STRING συλλέγει τα δεδομένα τα οποία εισάγονται από βάσεις δεδομένων μονοπατιών και έχουν αξιολογηθεί από έναν εξειδικευμένο χρήστη.

Εκτός από τις άμεσα συλλεγόμενες αποδείξεις, μία επιπλέον σημαντική συμβολή στις αλληλεπιδράσεις της STRING προέρχεται από την μεταφορά αποδείξεων από τον ένα οργανισμό σε άλλο. Αυτή η interolog μεταφορά, βασίζεται στην παρατήρηση ότι τα ορθόλογα των αλληλεπιδρώντων πρωτεϊνών σε ένα οργανισμό συχνά αλληλεπιδρούν και σε άλλους οργανισμούς. Η αξιοπιστία του αποτελέσματος αυτού εξαρτάται από την ποιότητα των ορθόλογων σχέσεων. Η STRING βασίζεται στις ιεραρχικές σχέσεις ορθολογίας, οι οποίες εισάγονται από την βάση δεδομένων eggNOG και, επιπλέον, διεξάγει καθολική μεταφορά αλληλεπιδράσεων, οι οποίες έχουν ελεγχθεί από κάθε κανάλι αποδείξεων.

Παραπομπές Επεξεργασία

  1. 1,0 1,1 1,2 1,3 Szklarczyk, Damian; Franceschini, Andrea; Wyder, Stefan; Forslund, Kristoffer; Heller, Davide; Huerta-Cepas, Jaime; Simonovic, Milan; Roth, Alexander και άλλοι. (2015-01-01). «STRING v10: protein-protein interaction networks, integrated over the tree of life». Nucleic Acids Research 43 (Database issue): D447–452. doi:10.1093/nar/gku1003. ISSN 1362-4962. PMID 25352553. PMC PMC4383874. https://www.ncbi.nlm.nih.gov/pubmed/25352553. 
  2. Franceschini, Andrea; Szklarczyk, Damian; Frankild, Sune; Kuhn, Michael; Simonovic, Milan; Roth, Alexander; Lin, Jianyi; Minguez, Pablo και άλλοι. (2013-01-01). «STRING v9.1: protein-protein interaction networks, with increased coverage and integration». Nucleic Acids Research 41 (Database issue): D808–815. doi:10.1093/nar/gks1094. ISSN 1362-4962. PMID 23203871. PMC PMC3531103. https://www.ncbi.nlm.nih.gov/pubmed/23203871. 
  3. Soto, Claudio (2003-01-01). «Unfolding the role of protein misfolding in neurodegenerative diseases». Nature Reviews. Neuroscience 4 (1): 49–60. doi:10.1038/nrn1007. ISSN 1471-003X. PMID 12511861. https://www.ncbi.nlm.nih.gov/pubmed/12511861. 
  4. Szklarczyk, Damian; Franceschini, Andrea; Kuhn, Michael; Simonovic, Milan; Roth, Alexander; Minguez, Pablo; Doerks, Tobias; Stark, Manuel και άλλοι. (2011-01-01). «The STRING database in 2011: functional interaction networks of proteins, globally integrated and scored». Nucleic Acids Research 39 (Database issue): D561–568. doi:10.1093/nar/gkq973. ISSN 1362-4962. PMID 21045058. PMC PMC3013807. https://www.ncbi.nlm.nih.gov/pubmed/21045058. 
  5. 5,0 5,1 von Mering, Christian; Jensen, Lars J.; Snel, Berend; Hooper, Sean D.; Krupp, Markus; Foglierini, Mathilde; Jouffre, Nelly; Huynen, Martijn A. και άλλοι. (2005-01-01). «STRING: known and predicted protein-protein associations, integrated and transferred across organisms». Nucleic Acids Research 33 (Database issue): D433–437. doi:10.1093/nar/gki005. ISSN 1362-4962. PMID 15608232. PMC PMC539959. https://www.ncbi.nlm.nih.gov/pubmed/15608232. 
  6. Wodak, Shoshana J.; Pu, Shuye; Vlasblom, James; Séraphin, Bertrand (2009-01-01). «Challenges and rewards of interaction proteomics». Molecular & cellular proteomics: MCP 8 (1): 3–18. doi:10.1074/mcp.R800014-MCP200. ISSN 1535-9484. PMID 18799807. https://www.ncbi.nlm.nih.gov/pubmed/18799807. 
  7. von Mering, Christian; Huynen, Martijn; Jaeggi, Daniel; Schmidt, Steffen; Bork, Peer; Snel, Berend (2003-01-01). «STRING: a database of predicted functional associations between proteins». Nucleic Acids Research 31 (1): 258–261. ISSN 1362-4962. PMID 12519996. PMC PMC165481. https://www.ncbi.nlm.nih.gov/pubmed/12519996. 
  8. Szklarczyk, Damian; Morris, John H.; Cook, Helen; Kuhn, Michael; Wyder, Stefan; Simonovic, Milan; Santos, Alberto; Doncheva, Nadezhda T. και άλλοι. (2017-01-04). «The STRING database in 2017: quality-controlled protein-protein association networks, made broadly accessible». Nucleic Acids Research 45 (D1): D362–D368. doi:10.1093/nar/gkw937. ISSN 1362-4962. PMID 27924014. PMC PMC5210637. https://www.ncbi.nlm.nih.gov/pubmed/27924014. 

Εξωτερικοί σύνδεσμοι Επεξεργασία

  • Ιστοσελίδα της STRING
  • Ιστοσελίδα της STITCH, συσχετιζόμενης βάσης δεδομένων για τις αλληλεπιδράσεις πρωτεϊνών με μικρά μόρια