GoogleGossip e frivolezze

Google vuole conservare il nostro genoma

Google sta avvicinando ospedali e università con una domanda: avete genomi? Memorizzateli con noi. Il primo prodotto del gigante della ricerca nel campo del DNA è Google Genomics, un servizio di cloud computing lanciato lo scorso marzo, ma che è in gran parte passato inosservato in mezzo a una raffica di annunci di ricerca e sviluppo di alto profilo da parte di Google, come quello del mese scorso relativo ad un piano di battaglia contro il cancro con le nanoparticelle.

Google Genomics potrebbe rivelarsi più significativo di uno qualsiasi di questi progetti. Collegare e confrontare i genomi a migliaia, e presto a milioni, è quello che spingerà le scoperte mediche per il prossimo decennio. La questione di chi memorizzerà i dati è già un punto di crescente concorrenza tra Amazon, Google, IBM e Microsoft.

google-vuole-genoma-informatblog

Google ha iniziato a lavorare su Google Genomics 18 mesi fa, incontrandosi con scienziati e costruendo una interfaccia che consente loro di spostare i dati sul DNA nelle sue server farm facendo esperimenti utilizzando la stessa tecnologia di database che indicizza il Web e traccia miliardi di utenti Internet.

“Abbiamo visto i biologi spostarsi dallo studio di un genoma alla volta a milioni”, dice David Glazer, l’ingegnere del software che ha guidato il progetto ed è stato in precedenza responsabile di Google+, il social network di Google. “L’opportunità è come applicare innovazioni nella tecnologia dei dati per aiutare questa transizione”.

Alcuni scienziati pensano che i dati del genoma rimangano troppo complessi perchè Google possa aiutarli in qualche modo. Ma altri vedono un grande cambiamento. Quando Atul Butte, un esperto di bioinformatica presso la Stanford ha sentito Google presentare i suoi piani, ha osservato di aver capito “come gli agenti di viaggio si sono sentiti quando hanno visto Expedia“.

L’esplosione dei dati avviene perchè i laboratori adottano attrezzature nuove e ancora più veloci per la decodifica del DNA. Ad esempio, il Broad Institute di Cambridge, Massachusetts, ha detto che durante il mese di ottobre ha decodificato l’equivalente di un genoma umano ogni 32 minuti. Che si traduce in circa 200 terabyte di dati grezzi.

Questo flusso di dati è più piccolo di quello che è normalmente gestito dalle grandi aziende Internet (in due mesi, il Broad Institute produrrà l’equivalente di ciò che viene caricato su YouTube in un solo giorno), ma supera qualunque cosa che i biologi abbiano mai affrontato. Questo sposta il problema su come archiviare e accedere ai dati in posizioni centrali, spesso commerciali. Il National Cancer Institute ha detto il mese scorso che avrebbe pagato 19 milioni di dollari per spostare le copie del 2,6 petabyte del Cancer Genome Atlas sul cloud. Copie dei dati, provenienti da diverse migliaia di pazienti affetti da cancro, risiederanno sia su Google Genomics che nei data center di Amazon.

L’idea è quella di creare “cloud di genomi di cancro“, in cui gli scienziati possono condividere le informazioni ed eseguire esperimenti virtuali con la stessa facilità di una ricerca sul Web, dice Sheila Reynolds, un ricercatore presso l’Institute for Systems Biology di Seattle. “Non tutti hanno la possibilità di scaricare un petabyte di dati o la potenza di calcolo per lavorarci sopra”, dice.

Accelerare il passaggio dei dati del DNA sul cloud è stata una guerra dei prezzi durata un anno tra Google e Amazon. Google dice che ora fa pagare circa 25 dollari l’anno per memorizzare un genoma, qualcosa in più per fare calcoli su di esso. Un dato grezzo che rappresenta il genoma di una singola persona è di circa 100 gigabyte, anche se una versione più pulita del codice genetico di una persona è molto più piccolo, meno di un gigabyte. Che sarebbe costato solo 25 centesimi di dollaro l’anno.

Il Cloud sta dando una spinta alle start-up come Tute Genomics, Seven Bridges, e NextCode Health. Queste aziende vogliono costruire un “browser” che gli ospedali e gli scienziati possono utilizzare per esplorare i dati genetici. “Google o Amazon rappresentano un back-end. Stanno dicendo che è possibile costruire una società di genomica sul nostro cloud”, dice Deniz Kural, CEO di Seven Bridges, che memorizza i dati dei genomi per conto di 1.600 ricercatori sul cloud di Amazon.

Il punto più grande, dice, è che la medicina presto potrà contare su una sorta di internet globale del DNA, che i medici saranno in grado di utilizzare. “Il concetto è che se dovessi avere il cancro ai polmoni, in futuro, i medici potranno sequenziare il genoma e il genoma del mio tumore, e poi interrogare un database di 50 milioni di altri genomi,” dice. “Il risultato sarà ‘Ehi, ecco il farmaco che funziona meglio‘”.

A Google, Glazer dice di aver iniziato a lavorare su Google Genomics quando è apparso chiaro che la biologia stava per passare da “artigianale ad una produzione dei dati a livello mondiale”. Ha iniziato da autodidatta della genetica, facendo un corso online insegnato dal capo di Broad, Eric Lander. Ha anche ottenuto il suo genoma sequenziato e lo ha messo sul cloud di Google.

Glazer non dice quanto è grande Google Genomics è o quanti clienti ha ora, ma almeno 3.500 genomi di progetti pubblici sono già memorizzati sui server di Google. Dice inoltre che non c’è alcun collegamento, per adesso, tra il cloud di Google e i suoi sforzi speculativi per l’assistenza sanitaria come l’azienda che Google ha avviato quest’anno, chiamata Calico, per cercare di estendere la durata della vita umana. “Ciò che li collega è solo una crescente consapevolezza che la tecnologia può avanzare lo stato dell’arte nella scienza della vita”, dice Glazer.

Somalee Datta, un fisico che gestisce il più grande cluster di computer dell’Università di Stanford per i dati genetici, afferma che a causa dei recenti tagli dei prezzi, oggi costa circa lo stesso memorizzare genomi con Google o Amazon e nel suo proprio centro dati. “I prezzi stanno finalmente diventando ragionevoli, e pensiamo che continueranno a cadere”, dice.

Datta dice che alcuni scienziati di Stanford hanno iniziato a utilizzare un database di Google, BigQuery, che la squadra di Glazer ha reso compatibile con i dati dei genomi. E’stato sviluppato per tracciare l’attività dei navigatori del Web su Internet, ma può anche eseguire rapidamente grandi esperimenti confrontando migliaia, o decine di migliaia, di genomi di persone che i ricercatori sono interessati a provare. “A volte vogliono fare cose folli, e avete bisogno di tanti dati e tanta potenza per farle”, dice Datta. “E’in grado di gestire la genetica di scala, quindi è la tecnologia giusta per un nuovo problema.”

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Le guide più interessanti