Hace unos días os hablamos del proyecto que Google está realizando para crear bases de datos con genomas de personas con autismo. Hoy, desde el blog de Google, hablan más sobre el tema, explicando como Autism Speaks utiliza la plataforma de Google en la nube para almacenar datos y permitir el acceso a otras personas, algo necesario cuando hablamos de 100 terabytes de datos que son importados desde allí a Google Genomics.
La cantidad de información del genoma de un solo individuo es enorme, comentan en el artículo que equivale a bajarse 100 largometrajes (aunque no especifican la resolución de los mismos), indicando que 10.000 genomas necesitaría una base de datos de petabytes.
Sobre Google Genomics, proyecto más detallado en developers.google.com/genomics, comentan que se trata de una solución que permite el acceso a los datos por parte de la comunidad científica. La API de Genomics ayuda a que puedan ser consultados usando Google BigQuery (para hacer consultas de la base de datos), con el poder de computación de la solución Google Compute Engine, que permite la construcción de análisis personalizados.
Los investigadores podrán pasar menos tiempo moviendo datos de aquí para allá y más analizando datos y colaborando con sus colegas.
Google Genomics permite:
– Almacenar información de genomas.
– Procesar los datos en lotes mediante la ejecución de un análisis de componentes principales.
– Explorar los datos a través de una o varias muestras.
– Compartir los datos genómicos con otro grupo de investigación, hacerlos públicos o distribuirlos entre una comunidad limitada.
De momento están concentrados en el proyecto Autism Speaks, que dedica más de 500 millones de dólares a estudiar este problema, aunque las posibilidades en un futuro podrían ser enormes, acabándose el envío de discos duros por correo tradicional.
Imagen de shutterstock.com