CASP – Critical assessment of protein structure prediction

Conoscere la disposizione spaziale degli atomi che costituiscono una proteina è di fondamentale importanza per determinarne la struttura tridimensionale. Tali strutture vengono depositate in archivi quali la Protein Data Bank  (PDB) deputati al mantenimento e alla fruizione delle strutture tridimensionali delle macromolecole biologiche. Fondata nel 1971 presso i Brookhaven National Laboratories, la PDB è oggi curata dal Research Collaboratory for Structural Bioinformatics (1) e presenta strutture risolte mediante tecniche di cristallografia, risonanza magnetica nucleare e microscopia elettronica (2).

Delle oltre 140.000 strutture depositate all’interno del database, circa il 90% sono state risolte utilizzando la cristallografia a raggi x. Queste strutture sono state fondamentali per comprendere i meccanismi alla base del funzionamento degli enzimi, ma anche per sviluppare delle molecole che modulassero tali meccanismi grazie ad approcci del tipo structure based drug design (£) (SBDD), che utilizzano tecniche di disegno di farmaci per identificare potenziali composti, basandosi sulla conoscenza della struttura del recettore (1).

dani

Comprendere la disposizione spaziale degli atomi che costituiscono una proteina non è affatto un compito semplice. A ciò si aggiunge il fatto che negli ultimi anni i progetti genomici hanno prodotto un’enorme quantità di dati associati alla sequenza di proteine. Per questa motivazione il numero delle strutture depositate oggi in banca dati è nettamente inferiore rispetto al numero delle sequenze amminoacidiche conosciute. Nonostante questo, la progettazione di un farmaco, studi delle interazioni fra proteine, o fra proteine e piccole molecole possono essere condotti preliminarmente in assenza di quella specifica struttura proteica depositata in banca dati.

Entriamo nel mondo della modellizzazione delle proteine, un’area della Bioinformatica che presenta lo scopo di predire la struttura terziaria delle proteine a partire dalla loro struttura primaria (sequenza amminoacidica) e sfrutta principi differenti. Ad esempio la modellizzazione delle per omologia sfrutta il principio secondo cui le proteine omologhe – e cioè quelle che hanno un antenato comune nell’evoluzione – presentano delle strutture simili. Infatti l’evoluzione delle proteine tende a conservare molto di più le strutture, poiché associate ad una specifica funzione biologica, piuttosto che le sequenze (1). Per modellizzare la sequenza di cui non è nota la struttura vengono utilizzati uno o più stampi, anche chiamati templati. Queste strutture sono state risolte e depositate in banca dati, ma soprattutto sono omologhe alla sequenza target da modellizzare. La modellizzazione per omologia non è l’unica strategia che viene utilizzata per predire la struttura tridimensionale delle proteine. La predizione della struttura terziaria di un target proteico in assenza di templati omologhi è lo scopo della modellizzazione ab initio. Ne consegue che la valutazione dei sistemi di predizione della struttura tridimensionale delle proteine è di fondamentale importanza per ottenere modelli sempre più accurati con cui poter lavorare.

A questo proposito, l’iniziativa più importante è rappresentata da CASP (Critical Assesment of Protein Structure Prediction). CASP è un esperimento che ha lo scopo di determinare i maggiori sviluppi ottenuti nel campo della modellizzazione di strutture tridimensionali delle proteine a partire dalla sequenza amminoacidica. Questi convegni sono tenuti ogni due anni dal 1994 (4) e ad esempio la dodicesima edizione dell’esperimento CASP è stata organizzata fra il maggio e l’agosto del 2016, mentre la conferenza tenutasi per la discussione dei risultati di quell’edizione è stata ospitata dal comune Italiano di Gaeta (5). Uno degli aspetti più importanti della competizione risiede nella valutazione oggettiva dei metodi. L’integrità degli esperimenti viene assicurata attraverso valutazioni e test “ciechi” delle procedure ed i giudici non conoscono l’identità dei partecipanti (5).

Per organizzare una competizione nella quale i partecipanti non conoscano informazione alcuna della struttura da predire, i cristallografi, che stanno per risolvere nuove strutture proteiche, mettono a disposizione dei partecipanti unicamente la sequenza. Al termine dell’esperimento i modelli generati verranno comparati con le strutture risolte, valutando il modello che più si avvicina alla proteina determinata dagli esperimenti di cristallografia (5).

Protein Structure Prediction Center è il sito web che presenta le informazioni e le novità associate all’esperimento CASP. Nella Home page del sito web sono riportate le categorie alle quali i modellizzatori possono prender parte durante l’esperimento, che sono: template – based
modeling (TBM), Ab initio modeling o Free Modeling (FM), contact prediction, refinement, ed infine data – assisted modeling.

La prima e la seconda categoria fanno riferimento alla modellizzazione delle proteine basata rispettivamente sull’utilizzo dei templati (TBM) omologhi e sulle informazioni associate alla sola sequenza (FM). La categoria refinement è associata alla capacità di migliorare il modello iniziale e risulta importante per il superamento dei bias legati alla struttura utilizzata come stampo nella TBM (4) . Infine le categorie contact prediction e Data – assisted modeling hanno come scopo rispettivamente la previsione dei contatti tridimensionali all’interno della struttura e l’utilizzo dei contatti predetti e di pochi dati sperimentali associati alla struttura per la costruzione di modelli migliori (4).

Secondo quanto riportato dal sito web del Protein Structure Prediction Center, lo scopo principale dell’esperimento CASP consiste nel miglioramento dei metodi per identificare la struttura di una proteina a partire dalla sequenza. L’organizzazione di un evento al quale possano partecipare liberamente modellizzatori da tutto il mondo, va dunque oltre il solo riconoscimento del miglior metodo o algoritmo utilizzato per la predizione strutturale delle proteine. CASP diventa anche un’importantissima occasione di confrontarsi per gli esperti nell’ambito della modellizzazione,  affinché in futuro si possa disporre di programmi sempre più performanti, che consentano di superare le problematiche legate alla mancanza di strutture di macromolecole biologiche depositate in banca dati.

Daniele D’Errico


Bibliografia:

(1) Pascarella S, Paiardini A. (2015). Bioinformatica: Dalla sequenza alla struttura delle proteine. Bologna, BO: Zanichelli editore S.pA.

(2) Burley SK, Berman HM, Kleywegt GJ, Markley JL, Nakamura H, Velankar S. Protein Data Bank (PDB): The Single Global Macromolecular Structure Archive. Methods Mol Biol . 2017, 1607: 627–641.

(3) Srivastava A, Nagai T, Srivastava A, Miyashita O, Tama F. Role of Computational Methods in Going beyond X-ray Crystallography to Explore Protein Structure and Dynamics.  Int. J. Mol. Sci. 2018, 19, 3401.

(4) Moult J, Fidelis K, Kryshtafovych A, Schwede T, Tramontano A. Critical assessment of methods of protein structure prediction: Progress and new directions in round XI. Proteins 2016, 84(Suppl 1): 4–14.

(5) Moult J, Fidelis K, Kryshtafovych A, Schwede T, Tramontano A. Critical assessment of methods of protein structure prediction (CASP)—Round XII. Proteins. 2018;86:7–15

One comment

Rispondi

Inserisci i tuoi dati qui sotto o clicca su un'icona per effettuare l'accesso:

Logo di WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione /  Modifica )

Google photo

Stai commentando usando il tuo account Google. Chiudi sessione /  Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione /  Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione /  Modifica )

Connessione a %s...

%d blogger hanno fatto clic su Mi Piace per questo: