Gabrielle Hartley, University of Connecticut
Cuando el Proyecto Genoma Humano anunció que había completado el primer genoma humano en 2003, fue un logro trascendental: por primera vez se descifró el código del ADN de la vida humana. Pero había un inconveniente, y es que no se consiguió reunir toda la información del genoma. Existían lagunas, regiones sin rellenar, a menudo repetitivas, que resultaban demasiado confusas para unirlas.
Gracias a los avances en la tecnología para manejar estas secuencias repetitivas, los científicos finalmente llenaron esos vacíos en mayo de 2021, y el primer genoma humano completo ha sido publicado oficialmente el 31 de marzo de 2022.
Soy una bióloga experta en genética que estudia las secuencias repetitivas de ADN y cómo dan forma a los genomas a lo largo de la historia evolutiva. Formé parte del equipo que ayudó a caracterizar las secuencias repetitivas que faltaban. Y ahora, con un genoma humano completo, esas regiones repetitivas se están explorando por primera vez en su totalidad.
Las piezas del puzzle que faltaban
El botánico alemán Hans Winkler acuñó la palabra “genoma” en 1920, combinando la palabra “gen” con el sufijo “-ome” (en inglés es genome), que significa “conjunto completo”, para describir la secuencia completa de ADN que contiene cada célula. Los investigadores siguen utilizando esta palabra un siglo después para referirse al material genético que compone un organismo.
Una forma de describir el aspecto de un genoma es compararlo con un libro de consulta. En esta analogía, un genoma es una antología que contiene las instrucciones del ADN para la vida. Se compone de una amplia gama de nucleótidos (letras) que se empaquetan en cromosomas (capítulos). Cada cromosoma contiene genes (párrafos) que son regiones de ADN que codifican las proteínas específicas que permiten el funcionamiento de un organismo.
Aunque todo organismo vivo tiene un genoma, su tamaño varía de una especie a otra. Un elefante utiliza la misma forma de información genética que la hierba que come y las bacterias de su intestino. Pero no hay dos genomas exactamente iguales. Algunos son cortos, como el genoma de la bacteria que habita en los insectos Nasuia deltocephalinicola, con solo 137 genes en 112 000 nucleótidos. Otros, como los 149 000 millones de nucleótidos de la planta con flores Paris japonica, son tan largos que resulta difícil hacerse una idea de cuántos genes contienen.
No obstante, los genes, tal y como se entienden tradicionalmente como tramos de ADN que codifican proteínas, constituyen solo una pequeña parte del genoma de un organismo. De hecho, suponen menos del 2 % del ADN humano.
El genoma humano contiene aproximadamente 3 000 millones de nucleótidos y algo menos de 20 000 genes que codifican proteínas, lo que representa un 1 % de la longitud total del genoma.
El 99 % restante son secuencias de ADN no codificantes que no producen proteínas. Algunas son componentes reguladores que funcionan como una centralita para controlar el funcionamiento de otros genes. Otras son pseudogenes o reliquias genómicas que han perdido su capacidad de funcionamiento.
Y más de la mitad del genoma humano es repetitivo, con múltiples copias de secuencias casi idénticas.
¿Qué es el ADN repetitivo?
La forma más sencilla de ADN repetitivo son los bloques de ADN que se repiten una y otra vez en tándem, llamados satélites. Aunque la cantidad de ADN satélite que tiene un determinado genoma varía de una persona a otra, suelen agruparse hacia los extremos de los cromosomas en regiones llamadas telómeros. Estas regiones protegen a los cromosomas de la degradación durante la replicación del ADN. También se encuentran en los centrómeros de los cromosomas, una región que ayuda a mantener intacta la información genética cuando las células se dividen.
Los investigadores aún no conocen bien todas las funciones del ADN satélite. Pero como forma patrones únicos en cada persona, los biólogos forenses y los genealogistas utilizan esta huella genómica para cotejar muestras de la escena del crimen y rastrear la ascendencia. Más de 50 trastornos genéticos están relacionados con variaciones en el ADN satélite, incluida la enfermedad de Huntington.
Otro tipo abundante de ADN repetitivo son los elementos transponibles o secuencias que pueden desplazarse por el genoma.
Algunos científicos los han descrito como ADN “egoísta” porque pueden insertarse en cualquier lugar del genoma, sin importar las consecuencias. A medida que el genoma humano evolucionó, muchas secuencias transponibles recogieron mutaciones, reprimiendo su capacidad de moverse para evitar interrupciones perjudiciales. Pero es probable que algunas sigan moviéndose. Por ejemplo, las inserciones de elementos transponibles están relacionadas con varios casos de hemofilia A, un trastorno hemorrágico genético.
Pero los elementos transponibles no son solo disruptivos. Pueden tener funciones reguladoras que ayudan a controlar la expresión de otras secuencias de ADN. Cuando están concentrados en los centrómeros, también pueden ayudar a mantener la integridad de los genes fundamentales para la supervivencia celular.
Asimismo, pueden contribuir a la evolución. Los investigadores han descubierto recientemente que la inserción de un elemento transponible en un gen importante para el desarrollo podría ser la razón por la que algunos primates, incluidos los humanos, ya no tienen cola. Los reordenamientos cromosómicos debidos a elementos transponibles están incluso vinculados a la génesis de nuevas especies como los gibones del sudeste asiático y los wallabies de Australia.
Completar el rompecabezas genómico
Hasta hace poco, muchas de estas complejas regiones podían compararse con la cara oculta de la luna: se sabía que existían, pero no se veían.
Cuando el Proyecto Genoma Humano se puso en marcha por primera vez en 1990, las limitaciones tecnológicas impedían descubrir por completo las regiones repetitivas del genoma. La tecnología de secuenciación disponible solo podía leer unos 500 nucleótidos a la vez, y estos fragmentos cortos tenían que superponerse unos a otros para recrear la secuencia completa. Los investigadores utilizaron estos segmentos superpuestos para identificar los siguientes nucleótidos de la secuencia, ampliando gradualmente el ensamblaje del genoma de a un fragmento por vez.
Estas regiones repetitivas de lagunas eran como armar un rompecabezas de 1 000 piezas de un cielo nublado: cuando todas las piezas son iguales, ¿cómo saber dónde empieza una nube y dónde acaba otra? Con tramos casi idénticos que se solapan en muchos puntos, la secuenciación completa del genoma por partes se hizo inviable. En la primera iteración del genoma humano quedaron ocultos millones de nucleótidos.
Desde entonces, los parches de secuencias han ido rellenando poco a poco las lagunas del genoma humano. Y en 2021, el Consorcio Telómero a Telómero (T2T), un consorcio internacional de científicos que trabajan para completar un ensamblaje del genoma humano de extremo a extremo, anunció que todas las lagunas restantes fueron finalmente llenadas.
Esto ha sido posible gracias a la mejora de la tecnología de secuenciación, capaz de leer secuencias más largas de miles de nucleótidos. Con más información para situar las secuencias repetitivas dentro de un panorama más amplio, resultó más fácil identificar su lugar adecuado en el genoma. Como si se simplificara un rompecabezas de 1 000 piezas a un rompecabezas de 100 piezas, las secuencias de lectura larga hicieron posible ensamblar grandes regiones repetitivas por primera vez.
Gracias a la creciente potencia de la tecnología de secuenciación de ADN de lectura larga, los genetistas están en condiciones de explorar una nueva era de la genómica, desentrañando por primera vez complejas secuencias repetitivas en poblaciones y especies. Y un genoma humano completo y sin lagunas constituye un recurso inestimable para que los investigadores estudien las regiones repetitivas que conforman la estructura y la variación genéticas, la evolución de las especies y la salud humana.
Pero un genoma completo no lo recoge todo. Se siguen realizando esfuerzos para crear diversas referencias genómicas que representen plenamente la población humana y la vida en la Tierra. Con referencias genómicas más completas, “telómero a telómero”, la comprensión de los científicos de la materia oscura repetitiva del ADN será más clara.
Gabrielle Hartley, PhD Candidate in Molecular and Cell Biology, University of Connecticut
Este artículo fue publicado originalmente en The Conversation. Lea el original.