ENCODE, o la transparencia del código.

10 Sep

Hace unos días se publicaron, simultáneamente y en varias revistas, multitud de datos sobre el proyecto internacional de secuenciación del ADN ENCODE. Los trabajos los fimaban más de 400 científicos que han trabajado -en mayor o menor medida- de forma conjunta. Entre las conclusiones que han obtenido es que gran parte de lo que se consideraba ADN basura no es tal. Y que variaciones en muchas de estas regiones antes denostadas parecen relacionarse con la aparición de multitud de enfermedades. Los datos, sus interpretaciones y la concepción de estos estudios tienen diversas aristas, que pretendemos tratar próximamente. Ahora, por lo pronto, nos interesa rescatar la parte final de un texto de Ed Yong, que ha trabajado este tema con gran dedicación y que habla sobre la comunicación y el uso futuro de todos estos datos:

(versión traducida)

¿Cómo van a buscarle sentido los científicos a todo esto?

ENCODE es enorme. Los resultados de esta fase se han publicado en 30 artículos principales en Nature, Genome Biology y Genome Research junto con una serie de artículos secundarios en Science, Cell y otras revistas. Y todo está disponible de forma gratuita.

Las páginas de las revistas en papel son un pobre repositorio para tal cantidad de datos, así que el equipo ENCODE ha diseñado un nuevo modelo de publicación. En el portal de ENCODE los lectores pueden seleccionar entre 13 temas de interés, y seguir sus “hilos” a lo largo de los diferentes artículos. Di por ejemplo que quieres saber sobre las secuencias “potenciadoras”. El hilo te llevará a los párrafos más relevantes de entre los 30 artículos de las tres revistas. “Para evitar que la gente tenga que filtrar previamente los 30 artículos y seleccionar los que realmente quiere leer,  nosotros le facilitamos ese hilo“, dice Birney.

Y sí, hay una app para eso.

La transparencia también es un asunto importante. “Con estos proyectos científicos tan exhaustivos, tiene que haber una gran confianza en que el análisis de los datos se ha hecho correctamente”, dice Birney. Pero no tienes simplemente que confiar. Al menos la mitad de las figuras de ENCODE son interactivas, y los datos que están detrás de ellas pueden ser descargados. El equipo ha diseñado también una “máquina virtual” – un archivo descargable con casi todos los datos y los códigos que se han usado en los análisis. Piensa en ello como en la sección de Métodos más completa jamás hecha. Con la máquina virtual “puedes reproducir paso por paso lo que hicimos para llegar a la figura”, dice Birney. “Creo que eso debería ser el estándar para el futuro”.

(versión original)

How will scientists actually make sense of all of this?

ENCODE is vast. The results of this second phase have been published in 30 central papers in Nature, Genome Biology and Genome Research, along with a slew of secondary articles in Science, Cell and others. And all of it is freely available to the public.

The pages of printed journals are a poor repository for such a vast trove of data, so the ENCODE team have devised a new publishing model. In the ENCODE portal site, readers can pick one of 13 topics of interest, and follow them in special “threads” that link all the papers. Say you want to know about enhancer sequences. The enhancer thread pulls out all the relevant paragraphs from the 30 papers across the three journals. “Rather than people having to skim read all 30 papers, and working out which ones they want to read, we pull out that thread for you,” says Birney.

And yes, there’s an app for that.

Transparency is a big issue too. “With these really intensive science projects, there has to be a huge amount of trust that data analysts have done things correctly,” says Birney. But you don’t have to trust. At least half the ENCODE figures are interactive, and the data behind them can be downloaded. The team have also built a “Virtual Machine” – a downloadable package of the almost-raw data and all the code in the ENCODE analyses. Think of it as the most complete Methods section ever. With the virtual machine, “you can absolutely replay step by step what we did to get to the figure,” says Birney. “I think it should be the standard for the future.”

Una respuesta to “ENCODE, o la transparencia del código.”

Trackbacks/Pingbacks

  1. ENCODE o la enciclopedia del ADN: una linterna en la basura | Dixitciencia - noviembre 4, 2012

    […] La ciencia será colaborativa o no será El proyecto ENCODE ha sido financiado con casi 200 millones de dólares por parte del NIH (Institutos Nacionales de Salud, en los Estados Unidos) y ha generado cerca de 15 terabytes de información. La comunicación de los resultados no podía ser convencional. Para hacerlo, los datos se dieron a conocer simultáneamente mediante 30 artículos en 3 de las revistas más prestigiosas, junto con otros trabajos accesorios en diversas publicaciones también del más alto impacto. Y, siguiendo con una tendencia creciente, toda la información se encuentra disponible en abierto, en lo que se ha dado en llamar open access. De esta forma, cualquier científico puede acceder a los datos y cotejarlos con los suyos, facilitando así que las investigaciones avancen más rápidamente. Además, el portal web de ENCODE permite seguir informaciones específicas a través de “hilos” que guían al visitante entre la maraña de todas las publicaciones. Y, en un esfuerzo de transparencia, han diseñado una “máquina virtual” que permite seguir el proceso de análisis que los científicos realizaron. Sólo una pega se les ha puesto: varias publicaciones, para poder ser simultáneas, se demoraron entre 6 meses y 1 año, privando de consultar esos datos a muchos científicos con investigaciones en marcha. […]

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s

A %d blogueros les gusta esto: