ImpresaVda: BioDigitalValley: l'ICT Applicata alla Biomedicina (3)

17 gennaio 2010

BioDigitalValley: l'ICT Applicata alla Biomedicina (3)

17 gen 2010

Qui trovi i post precedenti.

IL PROGETTO IMAGE IN DETTAGLIO
Qui puoi leggere un post dove l'argomento è descritto in maniera meno da addetti ai lavori.

Le tecniche di meta analisi raccolgono dati a partire da molti studi scientifici differenti per verificare il grado di accordo tra diversi studi e isolare e descrivere effetti sperimentali affidabili e statisticamente supportati.

In questo senso, la meta analisi dei dati disponibili costituisce il più importante strumento per verificare sia la confidenza di un determinato insieme di ipotesi scientifiche, sia la robustezza delle tecniche sperimentali usate negli studi di interesse.

Ad oggi, tuttavia, la meta analisi dei dati scientifici di argomento biomedico si basa principalmente sull'analisi testuale delle fonti di pertinenza al particolare problema di interesse, indipendentemente dal fatto che tali fonti siano articoli scientifici (meta analisi di letteratura), database di vettori di testo (per esempio, i database che contengono le sequenze delle proteine e quelli che si riferiscono alle mutazioni di tali sequenze in associazione con determinate patologie) o altre fonti di testo, come nel caso delle analisi effettuate negli studi di linguistica computazionale. Mentre però negli ultimi due casi citati il testo rappresenta l'elemento stesso dell'indagine, e corrisponde quindi esattamente al dato sperimentale oggetto di indagine, nel caso dell'aggregazione di studi di letteratura scientifica il testo costituisce una sovrastruttura rispetto al dato sperimentale vero e proprio, sia perché contiene le conclusioni tratte dagli autori (non necessariamente esatte) sia perché non riflette l'intera informazione contenuta nel dato sperimentale di partenza, ma solo quella parte che, a giudizio degli autori, è pertinente alle conclusioni che si intende sostenere.

Al contrario, la meta analisi delle immagini, e in particolar modo di quelle che rappresentano direttamente un risultato sperimentale e non schematizzano le conclusioni del lavoro, rappresenta uno strumento di indagine poco esplorato, nonostante le sue potenzialità comincino ad emergere.

Tale strumento può fornire sia una robustezza maggiore nel supporto delle conclusioni scientifiche tratte in un lavoro sia anche, ed è questo l'aspetto più interessante, nuove conferme sperimentali ad ipotesi di nuova formulazione. Per supportare quest'ultima affermazione, sarà sufficiente un esempio: immaginiamo di voler dimostrare per primi la correlazione tra l'espressione di un determinato gene e l'insorgenza di una patologia. Potremmo decidere di affidarci alla letteratura scientifica e affrontare la meta-analisi di tutti gli articoli scientifici che si riferiscono al gene in questione. Se la nostra ipotesi scientifica è originale, tuttavia, non troveremo nessun articolo che riporta in maniera diretta a livello del corpo del testo l'associazione tra il gene e la malattia di interesse, perché anche chi ha studiato la malattia non ha ancora notato l'associazione con il gene in questione. Inoltre, visto che la maggior parte degli studi si riferiscono ad un piccolo numero di replicati biologici, manca la potenza statistica necessaria perché si possa trarre una conclusione sul gene in questione.

Tuttavia il gene, sotto forma per esempio del suo prodotto proteico, anche se non identificato esplicitamente, potrebbe essere presente in tutti quegli esperimenti in cui si studia la patologia di interesse. Se il segnale sperimentale dovuto all'espressione di questo gene è noto, sarà possibile andare a ricercarlo in tutte le immagini di esperimenti che si riferiscono alla patologia bersaglio, e confrontarne l'intensità con tutte le corrispondenti immagini che si riferiscono a condizioni diverse (controllo di specificità).

Allo scopo di poter perseguire proprio questo tipo di approccio, nell'ambito del progetto Image ci si propone, per la prima volta a livello globale, l'esplorazione esaustiva delle immagini depositate in letteratura scientifica (image data mining, in circa 4 milioni di pubblicazioni scientifici), il trattamento statistico e la classificazione automatica delle stesse attraverso:

a) estrazione delle features significative,

b) definizione di una semantica appropriata

c) costruzione di classificatori appropriati (ove necessario, con tecniche di intelligenza artificiale)

ed infine lo studio di un caso specifico allo scopo di dimostrare come sia possibile ottenere con questa tecnica risultati originali nel settore della ricerca biomedica (virtual discovery).