Tag Archives: Ed Yong

ENCODE, o la transparencia del código.

10 Sep

Hace unos días se publicaron, simultáneamente y en varias revistas, multitud de datos sobre el proyecto internacional de secuenciación del ADN ENCODE. Los trabajos los fimaban más de 400 científicos que han trabajado -en mayor o menor medida- de forma conjunta. Entre las conclusiones que han obtenido es que gran parte de lo que se consideraba ADN basura no es tal. Y que variaciones en muchas de estas regiones antes denostadas parecen relacionarse con la aparición de multitud de enfermedades. Los datos, sus interpretaciones y la concepción de estos estudios tienen diversas aristas, que pretendemos tratar próximamente. Ahora, por lo pronto, nos interesa rescatar la parte final de un texto de Ed Yong, que ha trabajado este tema con gran dedicación y que habla sobre la comunicación y el uso futuro de todos estos datos:

(versión traducida)

¿Cómo van a buscarle sentido los científicos a todo esto?

ENCODE es enorme. Los resultados de esta fase se han publicado en 30 artículos principales en Nature, Genome Biology y Genome Research junto con una serie de artículos secundarios en Science, Cell y otras revistas. Y todo está disponible de forma gratuita.

Las páginas de las revistas en papel son un pobre repositorio para tal cantidad de datos, así que el equipo ENCODE ha diseñado un nuevo modelo de publicación. En el portal de ENCODE los lectores pueden seleccionar entre 13 temas de interés, y seguir sus “hilos” a lo largo de los diferentes artículos. Di por ejemplo que quieres saber sobre las secuencias “potenciadoras”. El hilo te llevará a los párrafos más relevantes de entre los 30 artículos de las tres revistas. “Para evitar que la gente tenga que filtrar previamente los 30 artículos y seleccionar los que realmente quiere leer,  nosotros le facilitamos ese hilo“, dice Birney.

Y sí, hay una app para eso.

La transparencia también es un asunto importante. “Con estos proyectos científicos tan exhaustivos, tiene que haber una gran confianza en que el análisis de los datos se ha hecho correctamente”, dice Birney. Pero no tienes simplemente que confiar. Al menos la mitad de las figuras de ENCODE son interactivas, y los datos que están detrás de ellas pueden ser descargados. El equipo ha diseñado también una “máquina virtual” – un archivo descargable con casi todos los datos y los códigos que se han usado en los análisis. Piensa en ello como en la sección de Métodos más completa jamás hecha. Con la máquina virtual “puedes reproducir paso por paso lo que hicimos para llegar a la figura”, dice Birney. “Creo que eso debería ser el estándar para el futuro”.

(versión original)

How will scientists actually make sense of all of this?

ENCODE is vast. The results of this second phase have been published in 30 central papers in Nature, Genome Biology and Genome Research, along with a slew of secondary articles in Science, Cell and others. And all of it is freely available to the public.

The pages of printed journals are a poor repository for such a vast trove of data, so the ENCODE team have devised a new publishing model. In the ENCODE portal site, readers can pick one of 13 topics of interest, and follow them in special “threads” that link all the papers. Say you want to know about enhancer sequences. The enhancer thread pulls out all the relevant paragraphs from the 30 papers across the three journals. “Rather than people having to skim read all 30 papers, and working out which ones they want to read, we pull out that thread for you,” says Birney.

And yes, there’s an app for that.

Transparency is a big issue too. “With these really intensive science projects, there has to be a huge amount of trust that data analysts have done things correctly,” says Birney. But you don’t have to trust. At least half the ENCODE figures are interactive, and the data behind them can be downloaded. The team have also built a “Virtual Machine” – a downloadable package of the almost-raw data and all the code in the ENCODE analyses. Think of it as the most complete Methods section ever. With the virtual machine, “you can absolutely replay step by step what we did to get to the figure,” says Birney. “I think it should be the standard for the future.”

A %d blogueros les gusta esto: