Biblia

Preguntas y respuestas: una nueva herramienta para garantizar la privacidad genética

Preguntas y respuestas: una nueva herramienta para garantizar la privacidad genética

ARRIBA: ISTOCK.COM, JXFZSY

El apetito por los datos sobre secuencias genéticas individuales está creciendo, tanto por parte de los consumidores como por el número de pruebas Los kits vendidos por compañías líderes como 23andMe y Ancestry.com superaron los 26 millones a principios de 2019 y de científicos que buscan acumular grandes conjuntos de datos para la investigación médica. Además de la secuenciación y el genotipado del genoma completo, en el que los científicos identifican las variantes genéticas de una persona, las nuevas herramientas de genómica funcional, como RNA-seq, ChIP-seq y la secuenciación de células individuales, han dado lugar a una gran cantidad de pruebas que detallan cómo las personas (y sus células individuales) responden a condiciones ambientales, medicamentos o enfermedades. para los piratas informáticos que buscan obtener información médica confidencial. En particular, las numerosas variantes genéticas que hacen que cada persona sea única se pueden utilizar para identificarla con tanta seguridad como una huella dactilar, revelando información confidencial como el estado de su enfermedad. En un proceso conocido como ataque de vinculación, un pirata informático puede usar información conocida sobre una persona de fuentes tales como registros públicos o incluso objetos desechados que contienen el ADN de una persona para identificarla dentro de una base de datos anónima compilada por investigadores académicos. Por ejemplo, si alguien participara de forma anónima en un estudio sobre el SIDA, podría ser posible descubrir su participación y, por lo tanto, su estado serológico mediante el ADN secuenciado de un cigarrillo.

Por lo tanto, los bioinformáticos y los científicos de datos están trabajando para desarrollar nuevas formas de almacenar y analizar datos que protegen el anonimato y al mismo tiempo permiten el tipo de intercambio colaborativo necesario para hacer avanzar la ciencia médica.

El científico habló con Gamze Gursoy y Mark Gerstein, dos bioinformáticos de la Escuela de Medicina de Yale, sobre cómo se puede obtener información confidencial de los datos genómicos y las formas de equilibrar la privacidad con la utilidad. Su artículo, publicado hoy (12 de noviembre) en Cell, detalla un nuevo método para desinfectar o eliminar información confidencial de los conjuntos de datos de genómica funcional al separar las variantes de identificación de una manera que no afecta la calidad de los datos.

Vea la técnica para rastrear a Golden State Killer El sospechoso también podría encontrarlo

El científico: Escuchamos mucho sobre la privacidad genética en el contexto de cosas como los resultados de 23andMe y Ancestry.com, pero lo que está describiendo en este documento es un tipo diferente de datos. ¿Qué diferencia a la genómica funcional de algo como la secuenciación del ADN o el genotipado?

Gamze Gursoy: Los tipos de datos que 23andMe y Ancestry.com [proporcionan] cuando las personas están interesadas observar la ascendencia o su predisposición a las enfermedades son las variantes genéticas que se obtienen de la secuenciación del ADN. . . . Cuando se trata de genómica funcional, estás haciendo estos experimentos para comprender las actividades en el núcleo celular si se expresan los genes, si los factores de transcripción se unen. Estos experimentos no se realizan necesariamente para identificar las variantes genéticas del individuo. 

Mark Gerstein: Solo puede secuenciar su genoma una vez, pero puede hacer esencialmente número infinito de experimentos de genómica funcional en una persona. Inexorablemente, esas muestras humanas le darán variantes de las personas que donaron esas muestras, pero muchas veces es completamente irrelevante para lo que le interesa.

Los bioinformáticos están trabajando para eliminar información genética sensible e identificable de la genómica funcional. conjuntos de datos para permitir el intercambio público de datos mientras se preserva la privacidad. y, por lo tanto, ¿por qué deberíamos preocuparnos por la privacidad de esta información?

GG: Hay dos tipos de información que puede obtener. Debido a que estas son secuencias de un secuenciador, puede obtener [algunas de] las variantes genéticas del individuo. Eso es lo que estamos intentando higienizar, porque no los necesitamos para calcular la expresión génica, por ejemplo. 

Pero hay otra cosa. Si descubre quién es la persona de la que tiene datos de genómica funcional, puede obtener información fenotípica sobre ellos. Porque, por lo general, estos experimentos de genómica funcional se realizan con el propósito de comprender si un gen está activado o desactivado en una enfermedad. Estás tratando de proteger las variantes genéticas para que no puedas volver a identificar a la persona, porque una vez que lo haces, puedes obtener información fenotípica confidencial y privada.

MG:La analogía para pensar es lo que ha pasado con internet. Inicialmente, la gente pensó que era muy inocuo publicar imágenes en Facebook. Ahora, hay tanta gente en el mundo mirando estas cosas. Realmente creo que es un proceso muy análogo, porque la intención de la empresa biomédica es secuenciar una fracción muy grande de los genomas de las personas y construir bases de datos masivas. Lo que sería muy desafortunado es que la gente no piense en estas cosas con anticipación, que construyamos esta enorme base de datos en el futuro y descubramos que tiene todas estas fugas molestas. Eso sería extremadamente perjudicial para la ciencia biomédica.

Aunque pueda parecer académico y un poco tonto pensar en todo esto ahora, es muy importante hacerlo antes de que llegue a escala. 

Vea Los piratas informáticos están penetrando en las bases de datos médicas para proteger los datos de los pacientes

cortesía de Mark gerstein

TS: ¿Qué es un ataque de vinculación, y ¿puede compartir un ejemplo de la vida real?

GG: Digamos que tiene dos conjuntos de datos. Uno de ellos tiene información proveniente de un individuo conocido y el otro es un conjunto de datos anonimizados. En un ataque de vinculación, utiliza la información conocida para eliminar el anonimato del conjunto de datos anonimizados.

Lo que hemos hecho, por ejemplo, es tomar tazas de café de un individuo y secuenciar el ADN que encontramos en el café. taza. . . . Conocemos al dueño de la taza de café y tenemos una base de datos de genómica funcional. Eliminamos el anonimato de la base de datos vinculando el genotipo que obtuvimos de la taza de café para revelar información fenotípica sobre el dueño de la taza de café.

TS: ¿Crees que las leyes de privacidad van a la par con la velocidad a la que se estaban desarrollando estas herramientas genómicas?

MG: No exactamente. Por un lado, hay personas que realmente no lo entienden en absoluto, que esencialmente comparten datos genéticos sin comprender el riesgo. Pero creo que eso es más una minoría. El proceso de pensamiento dominante ahora es que la privacidad genómica es un gran problema.

Pero lo que sucede es que todo se bloquea. Es muy difícil agregar muchos estudios. . . obtener poder estadístico para descubrir correlaciones genéticas importantes. Este proceso de pensamiento, aunque ciertamente lo entendemos, no es realmente un gran proceso de pensamiento para datos de genómica funcional donde el punto de los datos no son las variantes de ADN.

El punto de nuestro artículo es que tal vez hay una manera diferente de pensar acerca de esto. Podría tomar los resultados de los experimentos y hacer este tipo de desinfección, y luego poder compartirlos de una manera mucho más libre. Puede secuenciar el ADN de alguien una vez y tener los genotipos y guardarlos bajo llave. Pero luego el individuo tiene muchos tejidos, muchas células, para el trabajo de genómica funcional.

Ver Startups Plan the Health Data Gold Rush

TS:  ¿Cómo puede desinfectar los datos de genómica funcional para protegerse contra estos ataques de vinculación?

GG: Estos datos de genómica funcional son compartida en ciertos formatos de archivo. [Durante el análisis, los investigadores] toman las lecturas de secuenciación y las asignan a un genoma humano de referencia. [El archivo] nos dice dónde se asignan estas lecturas en el genoma, pero también nos dice cuál es la secuencia de las lecturas.

Observamos este formato de archivo de datos y [cuando encontramos una variante genética en la lectura], básicamente lo cambiamos a un formato donde [no hay] diferencia entre el genoma de referencia y la lectura. Por lo tanto, si tiene una secuencia que es diferente de ese genoma de referencia, [la sobrescribimos con] el genoma de referencia mientras conservamos el lugar donde [la secuencia] se mapea en el genoma.

Cuando tiene un solo variantes de nucleótidos donde tienes un cambio de letra, es muy fácil. [Por ejemplo], si solo está cambiando una letra A a C, la longitud de lectura no cambia y no afectará nada. Pero se vuelve realmente complicado cuando tienes eliminaciones e inserciones. Podría tener una región en la que su genoma no tenga esa región, pero el genoma de referencia sí. Necesitaría agregar, por ejemplo, algunas letras al final de la lectura para que aún tenga la misma longitud.

TS:  Tenía curiosidad por saber si se había hecho una prueba genética de consumo y si le preocupaba  la privacidad.

GG: Hablé con mi familia y luego lo hice. Estaba un poco preocupado, pero mi curiosidad era un poco más grande que mi preocupación. Aunque la gente no confía en las empresas, en términos de abuso de datos, creo que hay sistemas de almacenamiento de datos realmente buenos que estas empresas están implementando. Por supuesto, se utilizará con fines comerciales. Pero en términos de rastrearme y violar mi privacidad, no veo tanto problema.

MG: No lo he visto. Soy mucho el personaje más preocupado.

Vea los genomas anónimos identificados

Nota del editor: la entrevista fue editada por razones de brevedad.

G. Gursoy et al., Sanitización de datos para reducir la fuga de información privada de la genómica funcional, Celldoi: 10.1016/j.cell.2020.09.036, 2020.