Sesgo técnico generalizado en conjuntos de datos de secuenciación de ARN
ARRIBA: ISTOCK.COM, SHUOSHU
La secuenciación de ARN es una herramienta popular entre los biólogos moleculares porque les permite examinar los patrones de expresión génica en el ADN. Sin embargo, la técnica es susceptible a artefactos experimentales, lo que puede dar lugar a resultados mal interpretados. Según un estudio publicado la semana pasada (12 de noviembre) en PLOS Biology, uno de esos sesgos, que está asociado con la longitud del gen, está muy extendido en muchos conjuntos de datos publicados.
Rani Elkon, un bioinformático de la Universidad de Tel Aviv en Israel, dice que su equipo estaba analizando conjuntos de datos de secuenciación de ARN (RNA-seq) para un proyecto destinado a inferir la co-regulación de genes al examinar su co-expresión en muchas condiciones biológicas diferentes cuando se toparon con un hallazgo desconcertante: los genes que codifican proteínas en el ribosoma u otra maquinaria relacionada con la traducción, que son excepcionalmente cortos, y los genes que codifican proteínas de la matriz extracelular, como el colágeno, que son excepcionalmente largos, siguen apareciendo en sus análisis. En muchos conjuntos de datos diferentes, los genes que estaban regulados al alza y a la baja se enriquecieron para esas funciones específicas, dice Elkon.
El equipo se preguntó si había una explicación biológica o si esto era el resultado de una falla técnica. Para abordar esa pregunta, seleccionaron 35 conjuntos de datos de RNA-seq humanos y de ratón de GEO, un depósito de datos genómicos disponible públicamente. La mayoría de los conjuntos de datos que eligieron aparecieron en artículos publicados entre 2017 y 2018 y contenían entre dos y cuatro muestras repetidas que evaluaban la misma condición biológica, por ejemplo, tratamiento con factor de necrosis tumoral, una proteína involucrada en inflamación.
Dos herramientas de control de calidad podrían eliminar eficazmente los sesgos de longitud específicos de la muestra en los conjuntos de datos que examinaron.
Su análisis reveló que los extremadamente cortos o Los genes largos mostraron diferentes patrones de expresión entre las muestras replicadas, lo que indica que se trataba de un artefacto experimental. Si las transcripciones reflejaban alguna actividad celular relevante para la condición biológica en cuestión, su abundancia debería haber sido consistente para cada muestra de condición. Este problema, al que los autores se refieren como sesgo de longitud específico de la muestra, estuvo presente en 30 de los 35 conjuntos de datos. Esto nos indicó que el . . . el enriquecimiento de los genes muy largos y muy cortos en realidad refleja algún tipo de problema técnico en el experimento, le dice Elkon a The Scientist.
Los investigadores también encontraron que los genes específicos de la muestra El sesgo de longitud aumentó el número de falsos positivos en el análisis de enriquecimiento de conjuntos de genes (GSEA), un método que se usa ampliamente para examinar si los genes que muestran niveles alterados de expresión entre conjuntos de datos de RNA-seq corresponden a una función biológica.
Kaspar Hansen, un bioestadístico de la Universidad Johns Hopkins que no participó en el estudio, dice que este sesgo de longitud específico de la muestra está bien descrito en la literatura. Este estudio muestra que a pesar de la conciencia del problema, al menos entre los científicos orientados a los métodos, muchos investigadores no utilizan de forma rutinaria las herramientas existentes para abordarlo, agrega. Me sorprendió el alto porcentaje de conjuntos de datos en los que este sesgo es un problema.
Elkon y su equipo probaron si las herramientas de control de calidad existentes podrían corregir este problema. Descubrieron que cqn (normalización de cuantiles condicionales) y EDASeq (análisis de datos exploratorios y normalización para RNA-seq) podían eliminar eficazmente los sesgos de longitud específicos de la muestra en los conjuntos de datos que examinaron.
Consulte Herramientas computacionales Ordenar señal de Ruido
Creo que [este artículo es] una muy buena demostración de lo importante que es hacer un control de calidad, dice Michael Love, un bioestadístico de la Universidad de Carolina del Norte-Chapel Hill que no participó en el estudiar. Love agrega que hay otros sesgos que afectan los datos de RNA-seq, como el sesgo del contenido de GC, en el que la cantidad de guanina (G) y citosina (C) puede influir en si el nivel de expresión de un gen está sobre o subrepresentado. en algunas muestras.
También hay otros sesgos relacionados con la longitud. En 2009, Alicia Oshlack, bioinformática que entonces trabajaba en el Instituto de Investigación Médica Walter and Eliza Hall en Australia, y su colega informaron sobre un sesgo técnico inherente a los protocolos RNA-seq que hace que sea más fácil identificar diferencias en la expresión en genes más largos que en genes más largos. en los más cortos. Ella y su equipo también desarrollaron un método, GOSeq, para abordar esta representación excesiva. Oshlack, que ahora trabaja en Murdoch Childrens Research Institute, le dice a The Scientist en un correo electrónico que, si bien los sesgos de longitud informados por su grupo y el grupo de Elkons son ligeramente diferentes, probablemente afectarían a GSEA de la misma manera. .
El sesgo de longitud específico de la muestra probablemente sea el resultado de un problema técnico en las canalizaciones de RNA-seq, aunque la causa exacta sigue sin estar clara, dice Elkon. Él dice que espera que al destacar este problema, otros investigadores se den cuenta de este problema y tomen medidas para abordarlo.
Diría que es un artículo potencialmente impactante porque es importante conocer estos cosas y pensar en ellas cuando haces tu análisis, dice Hansen, quien desarrolló cqn, uno de los métodos probados en el estudio de Elkon. A veces, la comunidad necesita buenos recordatorios de que esto es realmente un problema.
S. Mandelboum et al., Interpretación incorrecta funcional recurrente de los datos de RNA-seq causada por el sesgo de longitud de genes específicos de la muestra, PLOS Biology, doi:10.1371/journal.pbio.3000481, 2019.
Diana Kwon es una freelance con sede en Berlín periodista. Síguela en Twitter @DianaMKwon.