Мы используем файлы cookie.
Продолжая использовать сайт, вы даете свое согласие на работу с этими файлами.

Ómica

Tecnologías de transcriptómica

Другие языки:

Tecnologías de transcriptómica

Подписчиков: 0, рейтинг: 0

Las tecnologías de transcriptómica son las técnicas utilizadas para el estudio del transcriptoma de un organismo, es decir, el conjunto de todos sus transcritos de ARN. La información contenida en un organismo se guarda en el ADN de su genoma y se expresa mediante la transcripción. Entonces, el ARNm sirve como una molécula intermediaria y transitoria en la red de información, mientras que los ARNs no codificantes cumplen con diferentes funciones adicionales. Un transcriptoma refleja una foto fija en el tiempo de los transcritos totales presentes en una célula. Las tecnologías de transcriptómica permiten saber qué procesos celulares se encuentran activos y cuáles inactivos. Uno de los principales retos de la biología molecular es comprender cómo un único genoma origina variedad de células. Otro es cómo se regula la expresión génica.

Los primeros intentos en estudiar transcriptomas completos comenzó al comienzo de la década de 1990. Desde finales de esta década, los subsiguientes avances tecnológicos han transformado repetidamente el campo y hecho de la transcriptómica una disciplina generalizada en las ciencias biológicas. Existen dos técnicas actuales clave en este campo: microarrays, los cuales cuantifican un conjunto de secuencias predeterminadas, y ARN-Seq, el cual utiliza secuenciación de alto rendimiento para registrar todos los transcritos. Conforme la tecnología ha mejorado, el volumen de datos producidos por cada experimento de transcriptómica se ha incrementado. Como resultado, los métodos de análisis de datos se han adaptado continuamente para analizar, de manera más precisa y eficiente, grandes volúmenes de datos. Las bases de datos transcriptómicos también se han ampliado y se han vuelto más útiles a medida que los investigadores continúan coleccionando y compartiendo transcriptomas. Sin el conocimiento de experimentos previos, sería imposible interpretar la información contenida en un transcriptoma.

La medición de la expresión de los genes de un organismo en tejidos, condiciones o momentos diferentes, aporta información sobre cómo los genes se regulan y revela detalles de la biología de un organismo. También se puede utilizar para inferir las funciones de genes previamente no anotados. Los análisis del transcriptoma han permitido el estudio de cómo la expresión génica cambia en diferentes organismos y ha sido crucial en la comprensión de las enfermedades humanas. Un análisis completo de la expresión génica hace posible la detección de tendencias amplias y coordinadas que no pueden discernirse de otra forma mediante ensayos más específicos.

Historia

Uso de métodos de transcriptómica a lo largo del tiempo. Artículos publicados sobre ARN-Seq (negro), microarrays de ARN (rojo), marcadores de secuencia expresada (EST) (azul), visualización diferencial digital (DDD) (verde) y análisis en serie/cap de la expresión génica (amarillo), desde 1990.

La transcriptómica se ha caracterizado por el desarrollo de nuevas técnicas, las cuales han redefinido cada década lo que es posible y han convertido en obsoletas tecnologías previas. El primer intento en capturar el transcriptoma humano de manera parcial fue publicado en 1991 e informó de 609 secuencias de ARNm del cerebro humano. En 2008 se publicaron dos transcriptomas humanos, compuestos de millones de secuencias derivadas de transcritos y cubriendo 16 000 genes. En 2015, se habían publicado transcriptomas de cientos de individuos. Actualmente, se generan continuamente transcriptomas de diferentes enfermedades, tejidos o incluso de células únicas. El rápido desarrollo de nuevas tecnologías con sensibilidad mejorada y más baratas ha posibilitado esta explosión en transcriptómica.

Antes de la transcriptómica

Varias décadas antes de que estuviera disponible cualquier estrategia de transcriptómica, ya se realizaban estudios de transcrítos individuales. A finales de la decada de 1970, se coleccionaron transcritos de ARNm de la mosca de seda, convirtiéndolos a ADN complementario (ADNc) para almacenamiento mediante transcriptasa inversa. En los años 1980, la secuenciación de bajo rendimiento utilizando el método de Sanger se utilizó para secuenciar transcritos al azar, produciendo marcadores de secuencias expresadas (ESTs). El método de secuenciación de Sanger predominaba hasta la llegada de los métodos de alto rendimiento, tales como la secuenciación por síntesis (Solexa/Illumina). Las secuencias ESTs se convirtieron en las predominantes durante los años 1990 como un método eficiente para determinar el contenido de genes de un organismo sin secuenciar el genoma completo. Multitud de métodos permitieron cuantificar transcritos individuales, tales como northern blot, matrices de membrana de nylon y PCR cuantitativa tras transcriptasa inversa (RT-qPCR).Sin embargo, estos métodos son laboriosos y solo pueden capturar una pequeña subsección del transcriptoma. Consecuentemente, la manera en que un transcriptoma en su conjunto se expresa y regula permaneció desconocida hasta el desarrollo de las técnicas de alto rendimiento.

Primeros intentos

El término transcriptoma se utilizó por primera vez en la década de los años 1990. En 1995, se desarrolló uno de los primeros métodos de secuenciación basados en transcriptómicas , el análisis seriado de expresión génica (SAGE), la cual funcionaba mediante secuenciación de Sanger de fragmentos transcritos concatenados al azar. Los transcritos se cuantificaron comparando los fragmentos con genes conocidos. También se utilizó en un breve espacio de tiempo una variante de SAGE, que utiliza técnicas de secuenciación de alto rendimiento, denominada análisis de expresión génica digital. Sin embargo, estos métodos fueron rápidamente reemplazados por la secuenciación de alto rendimiento de transcritos completos, lo cual proveía de información adicional sobre la estructura de los transcritos, por ejemplo, variantes de empalme alternativo.

Desarrollo de técnicas contemporáneas.

**Comparación de métodos contemporáneos**
	ARN-Seq	Microarray
Rendimiento	1-7 días por experimento	1-2 días por experimento
Cantidad de ARN de entrada	Bajo ~ 1 ng de ARN total	Alto ~ 1 μg de ARNm
Intensidad de trabajo	Alto (preparación de muestras y análisis de datos)	Bajo
Conocimiento previo	No se requiere ninguno, aunque conocer una secuencia de genoma/transcriptoma de referencia es útil	Se requiere un genoma/transcriptoma de referencia para el diseño de sondas
Precisión en la cuantificación	~90 % (limitado por la cobertura de la secuencia)	>90 % (limitado por la precisión de detección de fluorescencia)
Resolución de secuencia	ARN-Seq puede detectar SNPs y variantes de empalme (limitado por la precisión de secuenciación de ~99 %)	Las matrices especializadas pueden detectar variantes de empalme de ARNm (limitado por el diseño de la sonda y la hibridación cruzada)
Sensibilidad	1 transcrito/millón (aproximado, limitado por la cobertura de la secuencia)	1 transcrito/mil (aproximado, limitado por detección de fluorescencia)
Rango dinámico	100 000:1 (limitado por la cobertura de secuencia)	1000:1 (limitado por la saturación de fluorescencia)
Reproducibilidad técnica	>99 %	>99 %

Las técnicas predominantes actualmente, los microarrays y el ARN-Seq, se desarrollaron en la mitad de la década de 1990 y de 2000. En 1995 se publicaron por primera vez microarrays capaces de medir la abundancia de un conjunto definido de transcritos mediante su hibridación en una matriz de sondas complementarias. La tecnología de microarray permitió el ensayo de miles de transcritos simultáneamente y a un coste considerablemente reducido por gen y con ahorro de trabajo manual. Tanto las matrices de oligonucleótidos individuales como las de alta densidad de Affymetrix fueron los métodos preferidos para la elaboración de perfiles transcripcionales hasta finales de la década de 2000. Durante este periodo, se produjeron una serie de microarrays para abarcar genes conocidos de organismos modelo o de importancia económica. Los avances en el diseño y fabricación de matrices mejoraron la especificidad de las sondas y permitieron analizar más genes en un única matriz. Los avances en la detección por fluorescencia aumentaron la sensibilidad y la precisión de las mediciones de transcritos de baja abundancia.

El ARN-Seq se realiza mediante la transcripción inversa in vitro del ARN y la secuenciación del ADNc resultante. La abundancia de los transcritos se obtiene a partir del número de recuentes de cada transcrito. Por lo tanto, la técnica está altamente influenciada por el desarrollo de las tecnologías de secuenciación de alto rendimiento. La secuenciación masiva en paralelo (MPSS) fue un ejemplo temprano basado en la generación de secuencias de 16-20 pares de base mediante series complejas de hibridaciones, y se utilizó en 2004 para validar la expresión de 10 000 genes en Arabidopsis thaliana. El primer proyecto de ARN-Seq se publicó en 2006 con 1000 transcritos secuenciados utilizando tecnología 454. Esto fue suficiente cobertura para cuantificar la abundancia relativa de los transcritos. El ARN-Seq comenzó a ser a popular después de 2008 cuando nuevas tecnologías Solexa/Illumina permitieron registrar mil millones de secuencias de transcritos. Este rendimiento permite ahora la cuantificación y comparación de transcriptomas humanos.

Recopilación de datos

La generación de datos sobre los transcritos de ARN es posible mediante dos aproximaciones fundamentales: secuenciación de transcritos individuales (ESTs, o ARN-Seq) o hibridación de una matriz ordenada de sondas de nucleótidos (microarrays).

Aislamiento de ARN

Todos los métodos de transcriptómica requieren primero el aislamiento del ARN del organismo experimental antes de poder registrar los transcritos. Aunque los sistemas biológicos son increíblemente diversos, las técnicas de extracción de ARN son muy similares entre sí e involucran la disrupción mecánica de células y tejidos, disrupción de ARNasa con sales caotrópicas, disrupción de macromoléculas u complejos de nucleótidos, separación del ARN de biomoléculas indeseadas incluyendo ADN, y concentración del ARN mediante precipitación de una solución o dilución de una matriz sólida. El ARN aislado puede ser tratado adicionalmente con DNasa para digerir cualquier traza de ADN. Es necesario el enriquecimiento del ARN mensajero, ya que los extractos de ARN total, típicamente, se componen de ARN ribosómico en un 98%. El enriquecimiento de transcritos se puede llevar a cabo mediante métodos de afinidad por la poli-A o por depleción de ARN ribosómico mediante sondas específicas de secuencia. El ARN degradado puede afectar a los resultados posteriores; por ejemplo, el enriquecimiento de ARNm a partir de muestras degradas dará como resultado la depleción de los extremos 5' del ARNm y una señal irregular a lo largo de la longitud de cada transcrito. Es típica la congelación rápida de tejidos previa al aislamiento del ARN. Así se reduce la exposición de las enzimas RNasa una vez que el aislamiento está completo.

Marcadores de secuencia expresada

Un marcador de secuencia expresada (EST) es una secuencia corta de nucleótidos generada a partir de un solo transcrito de ARN. El ARN se copia primero en forma de ADN complementario (ADNc) mediante una enzima transcriptasa inversa, antes de la secuenciación del ADNc resultante. Ya que los ESTs se pueden coleccionar sin el conocimiento previo del organismo de procedencia, se pueden crear a partir de mezclas de diferentes organismos de muestras ambientales. Aunque actualmente se utilizan métodos de mayor rendimiento, las bibliotecas de ESTs solían aportar información de secuencias para diseños tempranos de microarrays; por ejemplo, se diseñó un microarray de cebada a partir de 350 000 ESTs secuenciados.

Análisis en serie y cap de la expresión génica (SAGE/CAGE)

Resumen de SAGE. En un organismo, los genes se transcriben y empalman (en eucariotas) para producir transcritos maduros de ARNm (rojo). El ARNm se extrae del organismo, y se utiliza la transcriptasa inversa para copiar el ARNm en ADNc de doble cadena y más estable (ds-cDNA; azul). En SAGE, el ADNc se digiere mediante enzimas de restricción (en la localización "X" y "X+11") para producir fragmentos "marcadores" de 11 nucleótidos. Estos marcadores se concatenan y secuencian utilizando secuenciación de Sanger de lectura larga (las diferentes sombras indican marcadores de diferentes genes). Las secuencias se deconvuelven para encontrar la frecuencia de cada marcador. La frecuencia de un marcador se puede utilizar para informar sobre la transcripción de su gen de origen.

El análisis en serie de la expresión génica (SAGE) se desarrolló a partir de la metodología de ESTs para incrementar el rendimiento de los marcadores generados y permitir la cuantificación de la abundancia de transcritos. El ADNc se genera a partir del ARN, pero luego se digiere en fragmentos "marcadores" de 11 pares de bases, mediante enzimas de restricción que cortan el ADN en secuencias específicas. Entonces, las secuencias se dividen de nuevo en sus fragmentos originales de 11 pares de bases mediante un software de computación, en un proceso llamado deconvolución. Si existe un genoma de referencia de alta calidad, estos marcadores se pueden emparejar con su gen correspondiente en el genoma. Si no existe un genoma de referencia, los marcadores se pueden utilizar directamente como marcadores diagnósticos si se encuentran expresados diferencialmente en un estado de enfermedad.

El análisis en cap de la expresión génica (CAGE) es un método derivado del SAGE que secuencia marcadores solo desde el extremo 5' de un transcrito de ARNm. Por lo tanto, el sitio de inicio de la transcripción de los genes se puede identificar cuando los marcadores se alinean a un genoma de referencia. La identificación de sitios de inicio en los genes es útil para el análisis de promotores y para la clonación de ADNc en su longitud completa.

SAGE y CAGE son métodos que generan información de más genes de los que era posible mediante la secuenciación de ESTs únicos, pero la preparación de las muestras y el análisis de datos son típicamente más intensivos.

Microarrays

Resumen de microarrays de ADN. En un organismo, los genes se transcriben y empalman (en eucariotas) para producir transcritos maduros de ARNm (rojo). El ARNm se extrae del organismo y se utiliza la transcriptasa inversa para copiar el ARNm a ADNc de doble cadena y más estable (ds-cDNA; azul). En microarrays, el ADNc se fragmenta y marca por fluorescencia (naranja). Los fragmentos marcados se unen a un array ordenado de oligonucleótidos ordenados. La medida de la intensidad de la fluorescencia a lo largo de la matriz indica la abundancia de un conjunto predeterminado de secuencias. Estas secuencias se seleccionan normalmente de manera específica para informar sobre los genes de interés en el genoma del organismo.

Principios y avances

Los microarrays consisten normalmente de una gradilla de oligómeros cortos de nucleótidos, llamados sondas y típicamente organizados en un portaobjetos de vidrio. La abundancia de transcritos se determina por hibridación de los transcritos marcados por fluorescencia a estas sondas. La intensidad de la fluorescencia en cada sonda del array indica la abundancia del transcrito para la secuencia de esa sonda. Se puede diseñar grupos de sondas para medir el mismo transcrito (por ejemplo, hibridando un transcrito en específico en diferentes posiciones) y suelen denominarse "conjuntos de sondas".

Los microarrays necesitan cierto conocimiento sobre la genómica del organismo de interés, por ejemplo, en forma de una secuencia del genoma anotada, o una genoteca de ESTs que se pueda utilizar para generar las sondas para la matriz.

Métodos

Los microarrays utilizados en transcriptómica normalmente se clasifican en dos amplias categorías: matrices punteadas de baja densidad o matrices de sondas pequeñas y alta densidad. La abundancia de transcritos se infiere por la intensidad de la fluorescencia, producto de transcritos marcados con fluoróforos, que se unen a la matriz.

Las matrices punteadas de baja densidad muestran normalmente gotas de picolitro de un rango de ADNc purificado en la superficie de un portaobjetos de vidrio. Estas sondas son más largas que las utilizadas en matrices de alta densidad y no pueden identificar eventos de empalme alternativo. Las matrices punteadas usan dos fluoróforos diferentes para marcar las muestras test y control, y el ratio de fluorescencia se utiliza para calcular de manera relativa la abundancia. Por otra parte, los de alta densidad utilizan un único marcador fluorescente, y cada muestra se hibrida y detecta individualmente. Estos arrays se popularizaron por el array Affymetrix GeneChip, en el que cada transcrito se cuantifica por diferentes sondas cortas de 25 oligómeros que analizan conjuntamente un gen.

Las matrices NimbleGen fueron un modelo de matriz de alta densidad producidas por un método de fotoquímica sin máscara, el cual permitió la manufactura flexible de matrices tanto en cantidades pequeñas como grandes. Estas tenían 100 000s de sondas de 45 a 85 oligómeros y se hibridaban con una muestra marcada de un color para el análisis de la expresión. Algunos diseños incorporaban hasta 12 matrices independientes por portaobjetos.

ARN-Seq

Resumen de ARN-Seq. En un organismo, los genes se transcriben y empalman (en eucariotas) para producir transcritos maduros de ARNm (rojo). El ARNm se extrae del organismo, se fragmenta y copia a ADNc de doble cadena y estable (ds-cDNA; azul). El ADNc se secuencia utilizando métodos de secuenciación de lectura corta y alto rendimiento. Estas secuencias se pueden alinear a la secuencia de un genoma de referencia para reconstruir las regiones del genoma que se transcribieron. Estos datos se pueden utilizar para anotar donde se encuentran los genes en expresión, sus niveles relativos de expresión y cualquier variante de empalme alternativo.

Principios y avances

El ARN-Seq consiste en la combinación de metodologías de secuenciación de alto rendimiento con métodos computacionales para capturar y cuantificar transcritos presentes en un extracto de ARN. La secuencia de nucleótidos generada es normalmente de una longitud de 100 pares de bases, aunque puede variar desde 30 a más de 10 000 pares de bases dependiendo del método de secuenciación utilizado. El ARN-Seq aprovecha el muestreo profundo del transcriptoma con muchos fragmentos pequeños de este para permitir la reconstrucción computacional del transcrito de ARN original alineando las lecturas a un genoma de referencia o entre sí (ensamblaje de novo). En un experimento de ARN-Seq se pueden cuantificar tanto los ARNs de baja como de alta abundancia (rango dinámico de 5 ordenes de magnitud) - una ventaja clave frente a los transcriptomas mediante microarray. Además, la cantidad de ARN de entrada es mucho menor para ARN-Seq (cantidades de nanogramos) en comparación con los microarrays (cantidades de microgramos), lo cual permite un examen más fino de las estructuras celulares hasta el nivel unicelular cuando se combina con la amplificación lineal de ADNc. En teoría, no existe un límite máximo para la cuantificación por ARN-Seq, y el ruido de fondo es muy bajo para lecturas de 100 pares de bases en regiones no repetitivas.

El ARN-Seq se puede utilizar para identificar genes en un genoma o para identificar qué genes están activos en un momento concreto en el tiempo. El conteo de lecturas se puede utilizar para modelizar de manera precisa los niveles relativos de expresión génica. La metodología del ARN-Seq ha mejorado continuamente, principalmente por el desarrollo de tecnologías de secuenciación de ADN para incrementar el rendimiento, precisión y longitud de lectura. Desde las primeras descripciones en 2006 y 2008, el ARN-Seq se ha adoptado rápidamente y superó a los microarrays como la técnica dominante en transcriptómica en 2015.

El objetivo de generar datos transcriptómicos a nivel de células individuales ha impulsado avances en los métodos de preparación de genotecas para ARN-Seq, dando lugar a avances espectaculares en sensibilidad. En la actualidad, los transcriptomas de célula única están bien descritos y incluso se han extendido a ARN-Seq in situ, en el que los transcriptomas de células individuales se analizan directamente en tejidos fijados.

Métodos

El ARN-Seq se estableció en paralelo al rápido desarrollo de una serie de tecnologías de secuenciación de ADN de alto rendimiento. Sin embargo, antes de la secuenciación de los transcritos de ARN extraídos, se realizan diferentes pasos clave de procesamiento. Los métodos difieren en el uso del enriquecimiento de los transcritos, fragmentación, amplificación, secuenciación simple o por pares, y en la conservación o no de la información de la hebra.

La sensibilidad de un experimento de ARN-Seq puede incrementarse al enriquecer tipos de ARN que sean de interés y eliminando los ARNs conocidos en abundancia. Las moléculas de ARNm se pueden separar utilizando sondas de oligonucleótidos, las cuales se unen a sus colas de poli-A. De manera alternativa, se puede utilizar la ribo-depleción para eliminar específicamente ARNr abundante y no informativo mediante hibridación de sondas a medida de las secuencias de ARNr específicas de taxón (ej.: ARNr de mamífero, de planta). Sin embargo, la ribo-depleción también puede introducir cierto sesgo al eliminar de manera inespecífica transcritos fuera del objetivo. Los ARNs pequeños, tales como micro ARNs, se pueden purificar en función de su tamaño mediante electroforesis en gel y extracción.

Dado que los ARNs mensajeros son más largos que las lecturas de los métodos de secuenciación de alto rendimiento típicos, los transcritos se suelen fragmentar antes de la secuenciación. El método de fragmentación es un aspecto clave de la construcción de bibliotecas para secuenciación. La fragmentación se puede lograr mediante hidrólisis química, nebulización, sonicación o transcripción inversa con nucleótidos terminadores de cadena. Alternativamente, la fragmentación y marcado de ADNc se pueden hacer simultáneamente mediante el uso de enzimas transposasas.

Durante la separación para la secuenciación, las copias ADNc de los transcritos se pueden amplificar mediante PCR para enriquecer los fragmentos que contienen las secuencias de los adaptadores 5' y 3'. La amplificación también se utiliza para permitir la secuenciación de cantidades muy pequeñas de ARN, siendo hasta 50 pq en aplicaciones extremas. Los controles del aumento de ARNs conocidos se pueden utilizar para controles de calidad de la preparación de bibliotecas y secuenciación, en términos de contenido en GC, longitud de los fragmentos, así como el sesgo producido por la posición de los fragmentos en un transcrito. Los identificadores moleculares únicos (UMIs) son secuencias cortas al azar que se utilizan para marcar individualmente fragmentos de secuencia durante la preparación de genotecas para que cada fragmento marcado sea único. Los UMIs proveen de una escala absoluta para la cuantificación, la oportunidad de corregir el consiguiente sesgo de amplificación introducido durante la construcción de la genoteca, y estimar de manera precisa el tamaño de las muestras iniciales. Los UMIs son particularmente adecuados para transcriptómica mediante ARN-Seq de célula única, donde la cantidad de ARN de entrada está restringida y se necesita la extensión de la amplificación de la muestra.

Una vez que se han preparado las moléculas de los transcritos, se pueden secuenciar en una sola dirección (single-end) o en ambas direcciones (paired-end). Una secuencia en una sola dirección suele ser más rápida de producir, mas barata que la secuenciación en ambas direcciones y suficiente para la cuantificación de niveles de expresión génica. La secuenciación en dos direcciones produce alineamientos/ensamblajes más robustos, lo cual es beneficioso para la anotación de genes y descubrimiento de isoformas de transcritos. Los métodos de ARN-Seq específicos de hebra preservan la información de la hebra de un transcrito secuenciado. Sin esta información, las lecturas se pueden alinear al locus de un gen pero no informan en qué dirección se transcribe el gen. Este tipo de ARN-Seq es útil para descifrar la transcripción de genes que se solapan en diferentes direcciones y para hacer predicciones de genes más robustas en organismos no modelo.

**Plataformas de tecnología de secuenciación comúnmente utilizadas para ARN-Seq**
Plataforma	Lanzamiento comercial	Longitud típica de lectura	Rendimiento máximo por análisis	Precisión de lectura única	Análisis de ARN-Seq depositadas en NCBI SRA (octubre de 2016)
454 Life Sciences	2005	700 pb	0,7 Gbp	99,9%	3 548
Illumina	2006	50–300 pb	900 Gbp	99,9%	362 903
SOLiD	2008	50 pb	320 Gbp	99,9%	7 032
Ion Torrent	2010	400 pb	30 Gbp	98%	1 953
PacBio	2011	10 000 pb	2GB	87%	160

Leyenda: NCBI SRA - Archivo de lecturas de secuencias del Centro Nacional para la Información Biotecnológica (NCBI)

Actualmente, el ARN-Seq se basa en copiar moléculas de ARN en ADNc previamente a la secuenciación; por lo tanto, las plataformas consiguientes son las mismas para datos genómicos y transcriptómicos. Consecuentemente, el desarrollo de tecnología de secuenciación de ADN ha sido una característica definitoria del ARN-Seq. La secuenciación directa de ARN mediante secuenciación de nanoporos representa una técnica de ARN-Seq de vanguardia en la actualidad. La secuenciación de ARN con nanoporos puede detectar bases modificadas que pasarían inadvertidas de otra manera al secuenciar ADNc y también elimina pasos de amplificación que podrían introducir sesgos.

La sensibilidad y precisión de un experimento de ARN-Seq dependen del número de lecturas obtenidas por cada muestra. Se necesita una gran cantidad de lecturas para asegurar una cobertura suficiente del transcriptoma, permitiendo la detección de transcritos de baja abundancia. El diseño experimental se complica aún más por las tecnologías de secuenciación con un rango limitado de salida de resultados, la eficiencia variable de la creación de secuencias, y la calidad de secuencia variable. Además de estas consideraciones, en cada especie existe un número diferente de genes y, por lo tanto, requiere un rendimiento de secuencias adaptado para un transcriptoma eficaz. Estudios iniciales determinaron los umbrales adecuados empíricamente, pero a medida que la tecnología maduró se predijo computacionalmente la cobertura adecuada mediante la saturación del transcriptoma. Aunque es algo contraintuitivo, la manera más efectiva de mejorar la detección de expresión diferencial en genes de baja expresión es añadir más replicas biológicas en vez de añadir más lecturas. Los estándares actuales recomendados por el proyecto de la Enciclopedia de elementos de ADN (ENCODE) son una cobertura de 70 veces el exoma para el ARN-Seq estándar y de hasta 500 veces el exoma para detectar transcritos e isoformas raros.

Análisis de datos

Los métodos de transcriptómica son altamente paralelos y requieren una computación significativa para producir datos significativa tanto para experimentos de microarrays como ARN-Seq. Los datos de microarray se registran como imágenes de alta resolución, necesitando la detección de características y análisis espectral. Cada archivo de datos crudos de microarray tiene un tamaño de 750 MB aproximadamente, mientras que las intensidades procesadas, en torno a 60 MB. El acoplamiento de múltiples sondas pequeñas con un solo transcrito puede revelar detalles sobre la estructura intrón-exón, requiriendo de modelos estadísticos para determinar la autenticidad de la señal de los resultados. Los estudios de ARN-Seq producen miles de millones de secuencias cortas de ADN, las cuales se tienen que alinear a genomas de referencia compuestos de millones a miles de millones de pares de bases. El ensamblaje de novo de las lecturas en un conjunto de datos requiere la construcción de grafos de secuencias altamente complejos. Los protocolos de ARN-Seq son altamente repetitivos y se benefician de la computación paralela, pero los algoritmos modernos permiten que el hardware informático de consumo es suficiente para experimentos simples de transcriptómica que no requieren de ensamblaje de novo de las lecturas. Un transcriptoma humano podría ser capturado eficazmente utilizando ARN-Seq con 30 millones de secuencias de 100 pb por muestra. Este ejemplo requeriría de aproximadamente 1,8 GBs de espacio de disco por muestra al almacenar los datos en formato comprimido FASTQ. Los datos de conteo procesados para cada gen ocuparían mucho menos espacio, siendo equivalentes a las intensidades procesadas en un microarray. Los datos de secuenciación se pueden almacenar en repositorios públicos, tales como el Sequence Read Archive (SRA). Se pueden cargar conjuntos de datos de ARN-Seq mediante la plataforma Gene Expression Omnibus.

Procesamiento de imágenes

Microarray y celdas de flujo de secuenciación. Microarrays y ARN-Seq se basan en el análisis de imágenes de diferentes maneras. En un chip de microarray, cada punto del chip es una sonda de oligonucleótidos definida y la intensidad de la fluorescencia detecta directamente la abundancia de una secuencia específica (Affymetrix). En una celda de flujo de secuenciación de alto rendimiento, los nucleótidos se secuencian uno a uno en cada punto, donde el color de cada secuenciación indica el siguiente nucleótido en la secuencia (Illumina Hiseq). Otras variaciones de estas técnicas utilizan más o menos tipos de colores.

El procesamiento de imágenes de microarray debe identificar correctamente la cuadrícula regular de características en una imagen y cuantificar independientemente la intensidad de fluorescencia para cada característica. Adicionalmente, se deben identificar los artefactos en imágenes y eliminarlos del análisis general. Las intensidades de fluorescencia indican la abundancia de cada secuencia, ya que la secuencia de cada sonda en el array se conoce previamente.

Los primeros pasos del ARN-Seq también incluyen un procesado similar de imágenes; sin embargo, la conversión de imágenes a datos de secuencias se trata típicamente de manera automática mediante software. El método de secuenciación por síntesis de Illumina resulta en un array de clústeres distribuidos sobre la superficie de una celda de flujo. La celda de flujo se visualiza hasta cuatro veces durante cada ciclo de secuenciación, con un total de decenas a cientos de ciclos. Los clústers de celdas de flujo son análogos a los puntos de un microarray y se deben identificar correctamente durante los primeros estadíos del proceso de secuenciación. En el método de pirosecuenciación de Roche, la intensidad de luz emitida determina el número de nucleótidos consecutivos en una repetición homopolimérica. Existen muchas variantes de estos métodos, cada cual con un perfil de error diferente para los datos resultantes.

Análisis de datos de ARN-Seq

Los experimentos de ARN-Seq generan grandes cantidades de lecturas de secuencias en crudo que tienen que ser procesadas para obtener información útil. El análisis de datos normalmente requiere una combinación de herramientas de software bioinformático (ver también Anexo: Herramientas bioinformáticas de ARN-Seq) que varían en función del diseño experimental y objetivos. El proceso se puede dividir en cuatro etapas: control de calidad, alineamiento, cuantificación y expresión diferencial. Los programas más populares de ARN-Seq se ejecutan desde una interfaz de líneas de comandos, ya sea en un ambiente Unix o en un ambiente estadístico de R/Bioconductor.

Control de calidad

Las lecturas de secuenciación no son perfectas, por lo que la precisión de cada base en la secuencia necesita estimarse mediante posteriores análisis. Los datos crudos se examinan para asegurar que las puntuaciones de calidad de las llamadas de bases son altas, que el contenido en GC coincide con la distribución esperada, que los motivos de secuencias cortas (k-meros) no están sobrerrepresentados, y que el ratio de lecturas duplicadas es aceptablemente bajo. Existen diferentes opciones de software para en análisis de calidad de las secuencias, incluyendo FastQC y FaQCs. Las anormalidades se pueden eliminar o marcar para tratamientos especiales en procesos posteriores.

Alineamiento

Para relacionar la abundancia de lecturas de secuencias con la expresión de un gen en particular, se alinea las secuencias de transcritos a un genoma de referencia, o entre las secuencias en un ensamblaje de novo si no existe un genoma de referencia. Los retos clave para el software de alineamiento incluyen: suficiente velocidad para permitir el alineamiento de miles de millones de secuencias cortas, flexibilidad para reconocer y tratar el empalme de intrones de ARNm eucariótico, y la correcta asignación de lecturas que se mapean en diferentes localizaciones del genoma. Los avances en software han atajado enormemente estos problemas, y el incremento en la longitud de lecturas secuenciadas reduce la probabilidad de alineamientos ambiguos. El Instituto Europeo de Bioinformática (EBI) soporta actualmente una lista de alineadores de secuencias de alto rendimiento.

El alineamiento de secuencias de transcritos primarios derivados de eucariotas a un genoma de referencia requiere de un tratamiento especializado de las secuencias de intrones, los cuales no están presentes en el ARNm maduro. Los alineadores de lecturas cortas realizan una ronda adicional de alineamientos específicamente diseñados para identificar las uniones de empalme, basándose en las secuencias canónicas de los sitios de empalme y la información conocida de sitios de empalme de intrones. La identificación de los sitios de empalme de intrones previene el alineamiento incorrecto de estos o de ser erróneamente descartados, permitiendo el alineamiento de más lecturas al genoma de referencia y la mejora de la precisión en las estimaciones de expresión génica. Debido a que la regulación génica puede ocurrir a nivel de isoformas de ARNm, los alineamientos en los que se tenga en cuenta el empalme alternativo también permiten la detección de cambios en la abundancia de isoformas, cuya información se perdería en otros análisis en bloque.

El ensamblaje de novo se puede utilizar para alinear lecturas entre sí para construir secuencias de transcritos en su longitud completa sin usar un genoma de referencia. Los retos particulares de un ensamblaje de novo incluyen requerimiento computacionales mayores comparados con un transcriptoma basado en una referencia, validación adicional de variantes génica o fragmentos, y anotación funcional de transcritos ensamblados. Las primeras métricas utilizadas para describir ensamblajes de transcriptoma, tales como N50, han demostrado ser engañosas y ahora se dispone de métodos de evaluación mejorados. Las métricas basadas en anotación evalúan mejor cómo de completo es el ensamblaje, tales como el conteo de mejores cóntigos recíprocos. Una vez se ha completado el ensamblaje de novo, este se puede usar como referencia para métodos posteriores de alineamiento de secuencias y para análisis cuantitativo de expresión génica.

Software de ensamblaje de ARN-Seq *de novo*
Software	Año de lanzamiento	Última actualización	Eficiencia computacional	Fortalezas y debilidades
Velvet-Oases	2008	2011	Baja, un solo subproceso, necesita RAM alta	El ensamblador original de lecturas cortas. Ahora está en gran parte reemplazado.
SOAPdenovo-trans	2011	2014	Moderada, múltiples subprocesos, RAM media	Un ejemplo temprano de un ensamblador de lecturas cortas. Se ha actualizado para el ensamblaje del transcriptoma.
Trans-ABySS	2010	2016	Moderada, múltiples subprocesos, RAM media	Adecuado para lecturas cortas, puede manejar transcriptomas complejos y está disponible una versión paralela de MPI para clústeres informáticos.
Trinity	2011	2017	Moderada, múltiples subprocesos, RAM media	Adecuado para lecturas cortas. Puede manejar transcriptomas complejos pero requiere mucha memoria.
miraEST	1999	2016	Moderada, múltiples subprocesos, RAM media	Puede procesar secuencias repetitivas, combinar diferentes formatos de secuenciación y se acepta una amplia gama de plataformas de secuencias.
Newbler	2004	2012	Baja, un único subproceso, RAM alta	Especializado para adaptarse a los errores de secuenciación de homopolímeros típicos de los secuenciadores Roche 454.
CLC genomics workbench	2008	2014	Alta, múltiples subprocesos, RAM baja	Tiene una interfaz gráfica de usuario, puede combinar diversas tecnologías de secuenciación, no tiene características específicas del transcriptoma y se debe comprar una licencia antes de su uso.
SPAdes	2012	2017	Alta, múltiples subprocesos, RAM baja	Se utiliza para experimentos de transcriptómica en células individuales.
RSEM	2011	2017	Alta, múltiples subprocesos, RAM baja	Puede estimar la frecuencia de transcritos con empalme alternativo. Fácil de usar.
StringTie	2015	2019	Alta, múltiples subprocesos, RAM baja	Puede usar una combinación de métodos de ensamblaje guiados por un genoma de referencia y de novo para identificar transcritos.

Leyenda: RAM – memoria de acceso aleatorio; MPI: interfaz de paso de mensajes; EST: marcador de secuencia expresada.

Cuantificación

Identificación por mapa de calor de patrones de coexpresión génica en diferentes muestras. Cada columna contiene las medidas de cambios en la expresión génica para cada muestra individual. La expresión génica relativa se indica por colores: alta expresión (rojo), expresión media (blanco) y baja expresión (Azul). Los genes y muestras con perfiles de expresión similares se pueden agrupar automáticamente (árboles a la izquierda y arriba). Las muestras pueden ser de diferentes individuos, tejidos, ambientes o condiciones de salud. En este ejemplo, la expresión del grupo de genes 1 es alta y la expresión del grupo 2 es baja en las muestras 1, 2 y 3.

La cuantificación de alineamientos de secuencias se puede realizar a nivel de gen, exón o de transcrito. Los resultados típicos incluyen una tabla de conteo de lecturas para cada característica analizada por el software; por ejemplo, para genes en un archivo de formato general feature. El conteo de genes y exones se puede calcular fácilmente utilizando HTSeq, por ejemplo, La cuantificación a nivel de transcrito es más complicada y requiere de métodos probabilísticos para estimar la abundancia de isoformas de transcritos a partir de lecturas cortas; por ejemplo, utilizando el software cufflinks. Las lecturas alineadas equitativamente a múltiples localizaciones se deben identificar y eliminar, alinear a una de las posibles localizaciones, o alinear a la localización más probable.

Algunos métodos de cuantificación pueden eludir por completo la necesidad de un alineamiento exacto de una lectura a un genoma de referencia. El software kallisto es un método que combina el pseudoalineamiento y cuantificación en un solo paso, ejecutándose 2 ordenes de magnitud más rápido que otros métodos contemporáneos, tales como aquellos utilizados por tophat/cufflinks, con menos carga computacional.

Expresión diferencial

Una vez que el conteo de cada transcrito está disponible, la expresión génica diferencial se mide mediante normalización, modelización, y análisis estadístico de los datos. La mayoría de las herramientas leen una tabla de genes y su conteo, pero algunos problemas, como cuffdiff, aceptan alineamiento de lecturas en formato BAM. Los resultados finales de estos análisis son listas de genes con tests por pares asociados para expresión diferencial entre tratamientos y las estimaciones de probabilidad de esas diferencias.

**Software de expresión génica diferencial ARN-Seq**
Software	Ambiente	Especialización
Cuffdiff2	Basado en Unix	Análisis de transcrito que rastrea empalmes alternativos de ARNm
EdgeR	R/Bioconductor	Cualquier dato genómico basado en conteo
DEseq2	R/Bioconductor	Tipos de datos flexibles, baja replicación
Lima/Voom	R/Bioconductor	Datos de micromatrices o ARN-Seq, diseño de experimentos flexible
Ballgown	R/Bioconductor	Descubrimiento de transcritos eficiente y sensible, flexible.

Leyenda: ARNm - ARN mensajero.

Validación

Los análisis de transcriptómica se pueden validar utilizando una técnica independiente, por ejemplo, una PCR cuantitativa (qPCR), la cual es reconocible y estadísticamente evaluable. La expresión génica se mide en comparación con estándares definidos tanto para el gen de interés como para genes control. La medición por qPCR es similar a la obtenida por ARN-Seq, en la que se puede calcular un valor para la concentración de una región diana en una muestra dada. Sin embargo, la qPCR está restringida por amplicones más pequeños de 300 pb, normalmente hacia el extremo 3' de la región codificante, evitando la región 3'-UTR. Si se necesita la validación de isoformas de transcritos, una inspección de los alineamiento de lecturas en ARN-Seq debería indicar donde se podrían localizar los primers de la qPCR para una discriminación máxima. La medición de múltiples genes control con los genes de interés genera una referencia estable en un contexto biológico. La validación de datos de ARN-Seq mediante qPCR ha demostrado normalmente que los diferentes métodos de ARN-Seq están altamente correlacionados.

La validación funcional de genes clave es una consideración importante para la planificación posterior a la construcción del transcriptoma. Los patrones de expresión génica observados se pueden relacionar funcionalmente a un fenotipo mediante un estudio independiente de knockdown/rescate en el organismo de interés.

Aplicaciones

Diagnóstico y perfilado de enfermedades

Las estrategias de transcriptómica han visto una amplía aplicación en diferentes áreas de la investigación biomédica, incluyendo diagnóstico y clasificación de enfermedades. Las aproximaciones de ARN-Seq han permitido la identicación a gran escala de sitios de inicio de la transcripción, descubierto el uso de promotores alternativos y nuevas variantes de empalme. Estos elementos reguladores son importantes en enfermedades humanas y, por lo tanto, definir tales variantes es crucial para la interpretación de estudios de asociación de enfermedades. El ARN-Seq puede identificar también polimorfismos de nucleótido único (SNPs) asociados a enfermedades, expresión específica de alelo, y fusiones de genes, los cuales contribuyen al entendimiento de variantes causales de enfermedad.

Los retrotransposones son elementos transponibles que proliferan en genomas eucariotas mediante un proceso que involucra la transcripción inversa. El ARN-Seq puede proveer de información sobre la transcripción de retrotransposones endógenos que pueden influenciar la transcripción de genes vecinos por diferentes mecanismos epigenéticos que llevan a enfermedad. De manera similar, el potencial de utilizar ARN-Seq para comprender enfermedades relacionados con el sistema inmunitario se está expandiendo rápidamente debido a la habilidad de diseccionar poblaciones de células inmunitarias y secuenciar repertorios de receptores de células T y B de pacientes.

Transcriptomas humanos y patógenos

El ARN-Seq de patógenos humanos se ha convertido en un método establecido para cuantificar cambios en la expresión génica, identificando nuevos factores de virulencia, prediciendo resistencia a antibióticos, y desentrañando interacciones inmunitarias huésped-patógeno. Un objetivo principal de esta tecnología es desarrollar mediciones de control de infección optimizadas y tratamientos individualizados dirigidos.

El análisis transcriptómico se ha centrado predominantemente en ya sea el huésped o el patógeno. El ARN-Seq dual se ha aplicado para clasificar simultáneamente la expresión de ARN tanto en el patógeno como en el huésped a lo largo del proceso de infección. Esta técnica permite estudiar la respuesta dinámica y redes reguladoras de genes inter-especie en ambas partes involucradas en la interacción desde el contacto inicial hasta la invasión y la persistencia final del patógeno o su eliminación por el sistema inmunitario del huésped.

Respuestas al entorno

La transcriptómica permite la identificación de genes y rutas metabólicas que responden a y contrarrestan el estrés ambiental biótico y abiótico. La naturaleza no dirigida de la transcriptómica permite la identificación de redes transcripcionales nuevas en sistemas complejos. Por ejemplo, el análisis comparativo de una serie de líneas de garbanzo en distintas fases de desarrollo identificó perfiles transcripcionales distintos asociados al estrés de sequía y salinidad, incluida la identificación del rol de isoformas de transcritos de AP2-EREBP. La investigación de la expresión génica durante la formación de biopelículas por el hongo patógeno Candida albicans reveló un conjunto de genes co-regulados, los cuales son críticos para el establecimiento de la biopelícula y su mantenimiento.

Los perfiles transcriptómicos también aportan información crucial sobre los mecanismos de resistencia a fármacos. Un análisis de más de 1000 aislados de Plasmodium falciparum, un parásito virulento responsable de la malaria en humanos, identificó que la regulación al alza de la respuesta a las proteínas desplegadas y que una progresión más lenta durante los estadios tempranos del ciclo de desarrollo asexual intraeritrocítico se asociaban con la resistencia a la artemisinina en aislados del sudeste asiático.

El uso de la transcriptómica también es importante para investigar respuestas en el ambiente marino. En ecología marina, "estrés" y "adaptación" han figurado entre los temas de investigación más comunes, especialmente en relación con el estrés antropogénico, como el cambio global o la contaminación. La mayoría de los estudios en este campo se han realizado en animales, aunque los invertebrados han estado infrarrepresentados. Un problema que sigue existiendo es la deficiencia de estudios de genética funcional, que dificulta la anotación de genes, especialmente para especies no modelo, y puede llevar a conclusiones vagas sobre los efectos a las respuestas estudiadas.

Anotación funcional de genes

Todas las técnicas transcriptómicas han sido particularmente útiles para identificar las funciones de genes e identificar aquellos responsables de determinados fenotipos. La transcriptómica de ecotipos de Arabidopsis que hiperacumulan metales correlacionó genes involucrados en la absorción, tolerancia y homeostasis de metales con el fenotipo. La integración de conjuntos de datos de ARN-Seq en diferentes tejidos se ha utilizado para mejorar la anotación funcional de genes en organismos de importancia comercial (ej.: pepino) o especies en peligro (ej.: koala).

El ensamblaje de lecturas de ARN-Seq no depende de un genoma de referencia y, por ello, es ideal para estudios de la expresión génica de organismos no modelo con recursos genómicos inexistentes o pobremente desarrollados. Por ejemplo, una base de datos de SNPs utilizada en programas de mejora genética del abeto Douglas se creó mediante análisis transcriptómico de novo en ausencia de un genoma secuenciado. De manera similar, se identificaron los genes involucrados en el desarrollo de tejidos cardiaco, muscular y nervioso en langostas mediante la comparación de transcriptomas de varios tipos de tejidos sin el uso de la secuencia de un genoma. El ARN-Seq también se puede utilizar para identificar regiones codificantes de proteínas previamente desconocidas en genomas ya secuenciados.

Un reloj del envejecimiento basado en transcriptomas

Las intervenciones preventivas del envejecimiento no son posibles sin mediciones de la velocidad de envejecimiento personal. La forma más actualizada y compleja de medir el envejecimiento es mediante el uso de biomarcadores variables del envejecimiento humano, lo cual se basa en la utilización de redes neuronales profundas que se pueden entrenar con cualquier tipo de datos ómicos para predecir la edad del sujeto. Se ha demostrado que el envejecimiento es un fuerte impulsor de cambios en el transcriptoma. Los relojes de envejecimiento basados en transcriptomas han sufrido de considerables variaciones en los datos y una precisión relativamente baja. Sin embargo, una aproximación que utiliza el escalado temporal y binarización de transcriptomas para definir un conjunto de genes que predice la edad biológica con precisión permitió alcanzar una evaluación cercana al límite teórico.

ARN no codificante

La transcriptómica se aplican más comúnmente al contenido en ARNm de una células. Sin embargo, las mismas técnicas son igualmente aplicables a ARNs no codificantes (ARNnc), los cuales no se traducen a proteínas, pero en cambio tienen funciones directas (ej.: papel en la traducción de proteínas, replicación del ADN, empalme de ARN, y regulación transcripcional). Muchos de estos ARNnc afectan al estado de enfermedades, incluyendo el cáncer, enfermedades cardiovasculares y neurológicas.

Bases de datos de transcriptómica

Los estudios de transcriptómica generan grandes cantidades de datos que tienen potenciales aplicaciones más allá de los objetivos originales de un experimento. Como tales, los datos crudos o procesados se pueden depositar en bases de datos públicas para asegurar su utilidad para la comunidad científica en general. Por ejemplo, a fecha de 2018, la base de datos Gene Expression Omnibus contenía millones de experimentos.

Bases de datos de transcriptómica
Nombre	Anfitrión	Datos	Descripción
Gene Expression Omnibus	NCBI	Microarray ARN-Seq	Primera base de datos transcriptómica que acepta datos de cualquier fuente. Introdujo los estándares comunitarios MIAME y MINSEQE que definen los metadatos experimentales necesarios para garantizar una interpretación y repetibilidad efectivas.
ArrayExpress	ENA	Microarray	Importa conjuntos de datos de Gene Expression Omnibus y acepta envíos directos. Los datos procesados y los metadatos del experimento se almacenan en ArrayExpress, mientras que las lecturas de secuencia sin procesar se mantienen en ENA. Cumple con los estándares de MIAME y MINSEQE.
Expression Atlas	EBI	Microarray ARN-Seq	Base de datos de expresión génica específica de tejido para animales y plantas. Muestra análisis secundarios y visualización, como el enriquecimiento funcional de términos de ontología génica, dominios InterPro o rutas metabólicas. Enlaces a datos de abundancia de proteínas donde estén disponibles.
Genevestigator	Datos procesados privadamente	Microarray ARN-Seq	Contiene procesamientos manuales de conjuntos de datos de transcriptomas públicos, centrándose en datos médicos y de biología vegetal. Los experimentos individuales se normalizan en la base de datos completa para permitir la comparación de la expresión génica en diversos experimentos. La funcionalidad completa requiere la compra de una licencia, con acceso gratuito a una funcionalidad limitada.
RefEx	DDBJ	Todos	Transcriptomas humanos, murinos y de rata de 40 órganos diferentes. Expresión génica visualizada como mapas de calor proyectados en representaciones 3D de estructuras anatómicas.
NONCODE	nocode.org	ARN-Seq	ARN no codificantes (ARNnc) excluyendo ARNt y ARNr.

Leyenda: NCBI – Centro Nacional para la Información Biotecnológica; EBI – Instituto Europeo de Bioinformática; DDBJ – Banco de datos de ADN de Japón; ENA – Archivo Europeo de Nucleótidos; MIAME – Información Mínima Sobre un Experimento de Microarray; MINSEQE – Información mínima sobre un experimento de secuenciación de nucleótidos de alto rendimiento.

Véase también

Ómicas

Notas

Otras lecturas

Lowe, R.; Shirley, N.; Bleackley, M.; Dolan, S.; Shafee, T. (Mayo de 2017). «Transcriptomics technologies». PLOS Computational Biology 13 (5): e1005457. Bibcode:2017PLSCB..13E5457L. PMC 5436640. PMID 28545146. doi:10.1371/journal.pcbi.1005457.
Taguchi, Y. H. (2019). «Comparative Transcriptomics Analysis». Encyclopedia of Bioinformatics and Computational Biology: 814-818. ISBN 9780128114322. doi:10.1016/B978-0-12-809633-8.20163-5.
Software utilizado en transcriptómica: