Cómo las estadísticas debilitaron el poder predictivo del ARNm
WIKIMEDIA, NICOLLE RAGER, FUNDACIÓN NACIONAL DE CIENCIASUsar la cantidad de ARN mensajero (ARNm) como indicador de la abundancia de proteínas podría ser arriesgado, concluye un artículo publicado en PLOS Computational Biology hoy (22 de mayo). Los autores examinaron los datos de estudios proteómicos anteriores y sus nuevos cálculos estadísticos revelaron que, si bien los niveles de ARNm pueden ser una guía útil para los niveles de proteína cuando se comparan diferentes genes, confiar en el ARNm para evaluar el mismo gen en diferentes tejidos puede ser bastante engañoso.
“Ha habido controversia sobre la cuestión de qué tan bien los niveles de ARNm pueden predecir los niveles de proteína” dijo el biólogo celular y molecular Marko Jovanovic de la Universidad de Columbia, quien no participó en el estudio. “Algunos artículos afirman que su poder predictivo es muy limitado, otros dicen que lo predicen muy bien. . . . El problema [es] que depende de lo que estés mirando, si estás interesado en las diferencias de expresión de diferentes genes dentro de…
En 2014, se publicaron dos artículos en Nature proporcionó los primeros mapas preliminares del proteoma humano, cada uno de los cuales detalla la abundancia y distribución de las diversas proteínas en los tejidos del cuerpo según lo determinado por espectrometría de masas. Entre la multitud de datos en uno de los documentos había una pepita de información práctica: al observar la amplia gama de proteínas y sus ARNm correspondientes en los diversos tejidos, los autores determinaron que los niveles de ARNm son buenos sustitutos de los niveles de proteína. De ser cierto, esto sería muy útil, dijo Jovanovic, porque es mucho más fácil medir los niveles de ARN.
Ver mapeo del proteoma humano
La mayoría de los biólogos probablemente asintieron con esta conclusión y leyeron en adelante, pero para el bioingeniero Nikolai Slavov de la Universidad Northeastern en Boston, los documentos afirman que representan un elefante estadístico en la habitación, dijo. Estaba claro para mí que esto no era consistente con sus datos desde el momento en que los vi, y por eso decidimos volver a analizar los datos.
El problema, dijo Slavov, era que, en el estudio original , los cambios en los niveles de ARNm y proteína entre diferentes genes, que pueden variar en 1000 veces o más, se agruparon junto con las diferencias de expresión de genes individuales entre tejidos, que generalmente están dentro de un rango de 10 veces. Analizar los datos en masa de esta manera había creado una paradoja clásica de Los Simpson, dijo Slavova, fenómeno estadístico por el cual las tendencias aparentes en conjuntos de datos individuales desaparecen o se invierten cuando los conjuntos se agrupan.
Efectivamente, cuando Slavov volvió a analizar el archivos de datos sin procesar de los dos estudios de Nature junto con los de un estudio de proteoma más reciente, descubrió que, cuando se compararon genes individuales en diferentes tejidos, los datos de ARNm apenas predijeron los niveles de proteína.
El ruido dentro de los datos fue responsable de parte de esta imprevisibilidad, dijo Slavov, pero hubo suficientes resultados reproducibles en diferentes conjuntos de datos para sugerir que el resto de la imprevisibilidad se debió a la regulación postranscripcional específica del tejido. En resumen, explicó Slavov, las diferencias en cosas como la degradación del ARNm, la degradación de proteínas y la secreción de proteínas entre los tipos de células hacen que el nivel de ARNm de un gen individual sea un predictor muy pobre de su abundancia de proteínas en los tejidos.
El artículo no implica que uno nunca deba confiar en los niveles de ARNm como un indicador de la expresión de proteínas, dijo el biólogo de sistemas Michael Springer de la Escuela de Medicina de Harvard, quien no participó en el estudio. Sobre la correlación de los niveles de ARNm y proteína, dijo, groseramente, eso es cierto. Los mRNA altamente expresados conducen a proteínas altamente expresadas, los mRNA poco expresados conducen a proteínas poco expresadas.
Pero, continuó, si las diferencias son más sutiles, como suelen ser para el mismo gen en diferentes tejidos o bajo diferentes condiciones, entonces debe tener cuidado al usar el ARNm como una lectura del nivel de proteína. . . Realmente depende de la pregunta que se haga.
El científico se acercó a Bernhard Kster, uno de los autores del estudio Nature de 2014, pero no obtuve respuesta.
A. Franks et al., Regulación postranscripcional en tejidos humanos, PLOS Computational Biology, 13:e1005535, 2017 .
¿Interesado en leer más?
El científico ARCHIVOS
Conviértase en miembro de
Reciba acceso completo a más de 35 años de archivos, así como a TS Digest, ediciones digitales de El científico, artículos destacados, ¡y mucho más!Únase gratis hoy ¿Ya es miembro?Inicie sesión aquí