Preguntas y respuestas: Codificación de una película clásica, sistema operativo de computadora en ADN
Dina Zielinski y Yaniv Erlich CENTRO DEL GENOMA DE NUEVA YORKAniv Erlich y sus colegas codificaron grandes archivos multimedia en ADN, copiaron el ADN varias veces y aun así lograron recuperar los archivos sin ningún error, informaron en Science hoy (2 de marzo). En comparación con las cintas de casete y las películas de 8 mm, es mucho menos probable que el ADN se vuelva obsoleto, y su densidad de almacenamiento es de aproximadamente 215 petabytes de datos por gramo de material genético, anotaron los investigadores.
Para probar el ADN’s Capacidades de almacenamiento de medios, Erlich, profesor asistente de informática en la Universidad de Columbia en la ciudad de Nueva York, y Dina Zielinski, científica asociada sénior en el Centro del Genoma de Nueva York, codificaron seis archivos grandes, incluida una película francesa y un sistema operativo de computadora. (SO), completo con software de procesamiento de texto, en DNA. Luego recuperaron los datos de copias de ese ADN generadas por PCR. El científico habló con Erlich sobre el estudio y otras posibles aplicaciones de almacenamiento de datos…
El científico: ¿Por qué el ADN es un buen lugar para almacenar información?
Yaniv Erlich: Primero, estábamos empezando a alcanzar los límites físicos de los discos duros. El ADN es mucho más compacto que los medios magnéticos, alrededor de 1 millón de veces más compacto. En segundo lugar, puede durar mucho más tiempo. Piensa en tus CD de los 90, probablemente ya estén rayados. [Hoy] podemos leer el ADN de un esqueleto [que tiene] 4000 años de antigüedad. En tercer lugar, una de las características interesantes del ADN es que no está sujeto a la obsolescencia digital. Piense en videocasetes o películas de 8 mm. Es muy difícil en estos días ver estas películas porque el hardware cambia muy rápido. ADN ese hardware no va a ninguna parte. Ha existido durante los últimos 3 mil millones de años. Si la humanidad pierde su capacidad de leer el ADN, tendremos problemas mucho mayores que el almacenamiento de datos.
TS: Tener otros investigadores intentaron almacenar información en el ADN?
YE: Hay varios grupos que ya han hecho este proceso, y nos inspiraron, pero nuestro enfoque tiene varias ventajas. La nuestra es un 60 por ciento más eficiente que las estrategias anteriores y nuestros resultados son muy inmunes al ruido y al error. La mayoría de los estudios previos informaron algunos problemas para recuperar los datos del ADN, algunos vacíos [en la información recuperada], pero mostramos que es fácil. Incluso tratamos de hacerlo más difícil para nosotros mismos. . . así que tratamos de copiar los datos, y la reacción enzimática [involucrada en la copia del ADN] introduce errores. Copiamos los datos, y luego copiamos esa copia, y luego copiamos una copia de esa copia nueve veces y aún pudimos recuperar los datos sin un solo error. Nosotros también . . . alcanzó una densidad de 215 petabytes por gramo de ADN. Su computadora portátil tiene probablemente un terabyte. Multiplique eso por 200,000, y podríamos incluir toda esa información en un gramo de ADN.
TS: ¿Cómo ¿usted y sus colegas eligen qué codificar en el ADN?
YE: Algunos fueron solo por diversión. Decidimos probar con una película francesa llamada La llegada de [un] tren [a la estación de La Ciotat], una de las primeras películas jamás creadas y, ahora, la primera película que sobrevive a las reacciones de PCR. Codificamos un sistema operativo de computadora completo, podría escribir su artículo sobre este sistema operativo. También pusimos un virus informático en el ADN. Pensamos que sería divertido poner un virus informático allí porque normalmente piensas en virus normales en el ADN.
TS: En su estudio, menciona que la alta fidelidad de su proceso se debe a los códigos fuente. ¿Qué son exactamente y por qué los usaste?
YE: Tenemos dos desafíos cuando codificas información en el ADN. La primera es que no todas las moléculas de ADN se crean por igual. Si tiene una molécula con un tramo largo del mismo nucleótido, como AAAA, es muy difícil sintetizar esta molécula y muy difícil replicarla, por lo que no es muy recomendable hacerlo. El segundo desafío es que no todas las moléculas de ADN lo lograrán: algunas en este proceso enzimático básicamente abandonarán el proceso, y todavía tenemos que poder recuperar el archivo. El uso de códigos fuente es una solución que aborda estos dos problemas.
Es como un rompecabezas de Sudoku. En lugar de enviar los archivos directamente, enviamos muchas sugerencias sobre el archivo. . . . Lo hacemos tan fácil que incluso si te estás perdiendo muchas de las pistas, aún puedes recuperar el archivo. Esta es la misma forma en que funciona una fuente de ADN. No ve todas las moléculas, pero aún puede recuperar el contenido del archivo. Y una vez que tenga el archivo, la computadora puede generar infinitas pistas sobre el archivo. . . como una fuente Tomamos cada pista, la mapeamos en una secuencia de ADN en la computadora y vemos si nos gusta esta secuencia o no. ¿Tiene las propiedades que queremos de una buena secuencia de ADN? Si no es así, lo descartamos.
El archivo de ADN, en sí mismo, es en realidad muchas, muchas pistas sobre el archivo. Hay algunos lugares donde las pequeñas partes del archivo están realmente allí, como las celdas respondidas en una cuadrícula de Sudoku, pero la mayoría de los lugares tienen estas sugerencias sobre varias celdas en la cuadrícula.
TS: ¿Qué tan difícil fue recuperar archivos codificados en ADN?
YE: Fue súper simple . . . . Una vez que tuvimos esta idea de usar códigos fuente, todo encajó. Empezamos a finales de mayo y teníamos el manuscrito listo a mediados de septiembre.
TS: Es ¿Es un proceso realista? ¿Qué tan caro es?
YE: En este momento, necesita más trabajo. . . Actualmente cuesta como $ 7,000 por dos megabytes de datos, pero esto es lo que debe tener en cuenta: los $ 7,000 son para moléculas de ADN de muy buena calidad, porque la cadena de suministro está orientada a aplicaciones de biología sintética. Pero aquí tenemos toda esta redundancia incorporada, podemos tolerar una fracción mucho mayor de errores, por lo que esto sugiere que básicamente podemos ir y tal vez producir más ADN rápido y sucio que será más erróneo, pero mucho más barato. De esta manera, podemos realmente reducir los costos de almacenamiento de ADN.
Aclaración (3 de marzo): El título de este artículo se actualizó para dejar en claro que los investigadores codificaron una película y un sistema operativo en ADN.
¿Interesado en leer más?
El científico ARCHIVOS
Conviértase en miembro de
Reciba acceso completo a más de 35 años de archivos, así como a TS Digest, ediciones digitales de The Scientist, artículos destacados, ¡y mucho más!Únase gratis hoy ¿Ya es miembro?Inicie sesión aquí