Мы используем файлы cookie.
Продолжая использовать сайт, вы даете свое согласие на работу с этими файлами.
Pangenoma

Pangenoma

Подписчиков: 0, рейтинг: 0

En el campo de la genómica, el término pangenoma se refiere al conjunto completo de genes de todas las cepas que forman un clado filogenético. En otras palabras, un pangenoma es la unión de todos los genomas de los organismos que pertenecen a un mismo clado​​​​. El campo de estudio del pangenoma se llama ‘pangenómica’​. La finalidad de los estudios pangenómicos es comprender la diversidad de la totalidad de los genes codificados en un grupo de organismos cercanos filogenéticamente. Para ello, mediante el uso de herramientas bioinformáticas especializadas, se clasifican cada uno de los genes presentes en cada uno de los genomas analizados en grupos o familias de genes ortólogos. El total de familias de genes identificados en esta comparación determina el tamaño del pangenoma de los organismos analizados. La mayoría de las herramientas de análisis pangenómicos entregan, como resultado, una matriz de presencia y ausencia de cada uno de los genes ortólogos para cada genoma analizado. A partir de esta matriz, se puede conocer cuáles de estas familias de genes ortólogos están presentes en todos los genomas analizados y cuáles solo están presentes en algunas cepas.

Con base en estos conceptos, un pangenoma puede dividirse en un “genoma central” (también conocido como “core genome”) el cual representa al conjunto de genes que están presentes en todos los individuos del clado, un “genoma periférico” (o “shell pangenome”) que contiene los genes presentes en dos o más organismos pero que no pertenecen al genoma central y, un “genoma diferencial” ( o “cloud pangenome”) referente al conjunto de genes únicos los cuales están presentes sólo en un organismo del clado​​​.

Actualmente no existe una definición de consenso para las diferentes partes del pangenoma. Por ejemplo, algunos autores han propuesto una definición menos estricta para el genoma central,  la cual considera a todos los genes presentes en el 99-100% de los individuos del clado de estudio. Por otro lado, algunos autores se refieren al genoma diferencial como "genoma accesorio", el cual contiene genes ‘dispensables’ o ‘innecesarios’ que solo están presentes en algunos de los organismos comparados. Sin embargo, el término ‘dispensable’ ha sido cuestionado por otros autores, al menos en el área de genómica de plantas, ya que se considera que los genes accesorios juegan “un papel importante en la evolución genómica así como en la compleja interacción genoma-medio ambiente”​.

En bacterias, el repertorio genético representativo de una especie generalmente es más grande que el contenido de genes de una sola cepa​. Bajo este fundamento, a nivel de organismos o clados filogenéticos, también existe un criterio de clasificación para los pangenomas: abierto o cerrado. Cuando se asigna la clasificación de ‘pangenoma cerrado’ a una especie o grupo de organismos significa que muy pocos genes nuevos se añaden al pangenoma por genoma secuenciado (después de secuenciar muchas cepas), y que el tamaño real del pangenoma de la especie en cuestión puede ser calculado teóricamente. Por otro lado, la clasificación de ‘pangenoma abierto’ se utiliza para describir que el tamaño del pangenoma de una especie en particular no puede ser calculado teóricamente debido a que cuanto más se añaden genomas nuevos al pangenoma, el número de genes nuevos incrementa en gran medida.

Originalmente, el término pangenoma fue construido para describir la diversidad genética de bacterias y arqueas. Sin embargo, actualmente este término también se utiliza para describir el contenido de genes diferenciales en genomas eucariotas. La importancia de los estudios pangenómicos surgió a partir de un contexto evolutivo y, actualmente, son considerados relevantes desde un contexto genómico más amplio​, por ejemplo, en estudios de metagenómica​. El libro “The Pangenome - Diversity, Dynamics and Evolution of Genomes”​ publicado en 2020 por Hervé Tettelin y Duccio Medini, incluye una descripción completa del concepto de pangenoma, su historia y principales avances en el área, así como importantes discusiones que han surgido en el área de la pangenómica en los últimos años.

Etimología

El término ‘pangenoma’ fue definido con su significado actual por Tettelin en 2005​; ‘pan’ se deriva del griego y significa ‘entero’ o ‘todo’, mientras que el ‘genoma’ es un término comúnmente utilizado para describir el material genético completo de un organismo. Tettelin aplicó el término específicamente de las bacterias, cuyo pangenoma “incluye un genoma central que contienen genes presentes en todas las cepas y un genoma prescindible compuesto por genes ausentes en una o más cepas y genes que son exclusivos de cada cepa”​.

Partes del genoma

En el pangenoma, podemos identificar tres conjuntos de genes: el central, periférico y diferencial. El genoma central comprende los genes que están presentes en todos los genomas analizados. Para evitar descartar familias debido a artefactos de secuenciación, algunos autores consideran el genoma central relajado (>95% de ocurrencia). El genoma periférico consiste en los genes compartidos por la mayoría de los genomas (10-95% de ocurrencia). Las familias de genes presentes en un solo genoma o <10% de ocurrencia se describen como genoma diferencial.

Genoma central

Es la parte del pangenoma que comparten todos los genomas del conjunto analizado. Algunos autores han dividido el genoma central en genoma central estricto, aquellas familias de genes homólogos que tienen al menos una copia de la familia compartida por cada genoma (100% de los genomas) y el genoma central relajado​, a aquellas familias distribuidas por encimas de cierto umbral (90%). En un estudio que involucra los pangenomas de Bacillus cereus y Staphylococcus aureus, algunos de ellos  aislados de la estación espacial internacional, los umbrales utilizados para segmentar los pangenomas fueron los siguientes: "diferencial", "periférico" y "central" correspondientes al gen familias con presencia en <10%, 10 a 95% y >95% de los genomas, respectivamente.​

El tamaño del genoma central y la proporción con el pangenoma depende de varios factores, pero depende especialmente de la similitud filogenética de los genomas considerados. Por ejemplo, el genoma central de dos genomas idénticos también sería el pangenoma completo. El genoma central de un género siempre será más pequeño que el genoma central de una especie. Los genes que pertenecen al genoma central a menudo están relacionados con funciones constitutivas y del metabolismo primario del linaje; sin embargo, el genoma central también puede contener algunos genes que diferencian a la especie de otras especies del género, es decir, que pueden estar relacionados con la patogenicidad del nicho​.

Genoma periférico

Es la parte del pangenoma compartida por la mayoría de los genomas de un pangenoma​. No existe un umbral universalmente aceptado para definir el genoma periférico, algunos autores consideran una familia de genes como parte del genoma periférico si es compartida por más del 50% de los genomas del pangenoma​. Una familia puede formar parte del genoma periférico por varias dinámicas evolutivas, por ejemplo por la pérdida de un gen en un linaje donde anteriormente formaba parte del genoma central, tal es el caso de las enzimas en el  operón de triptófano de Actiniomyces​ , o por ganancia de genes y fijación de una familia de genes que anteriormente formaba parte del genoma prescindible, tal es el caso del gen trpF en varias especies de Corynebacterium.​

Genoma diferencial

El genoma diferencial consiste en aquellas familias de genes compartidas por un subconjunto mínimo de los genomas en el pangenoma​, incluye singletons o genes presentes en sólo uno de los genomas. Las familias de genes en esta categoría a menudo están relacionadas con la adaptación ecológica.

Clasificación

a) Los pangenomas cerrados se caracterizan por genomas centrales grandes y genomas accesorios pequeños. b) Los pangenomas abiertos tienden a tener genomas centrales pequeños y genomas accesorios grandes. c) El tamaño de los pangenomas abiertos tiende a aumentar con cada genoma que se va agregando, mientras que el tamaño de los pangenomas cerrados tiende a ser asintótico al agregar más genomas. Debido a esta característica, se puede hacer una predicción del tamaño completo del pangenoma para pangenomas cerrados.

El pangenoma se puede clasificar como abierto o cerrado según el valor alfa de la ley de Heaps ​​

  • Número de familias de genes.
  • Número de genomas
  • Constante de proporcionalidad.
  • Exponente calculado para ajustar la curva de número de familias de genes vs nuevo genoma.


Si  el pangenoma está abierto. Si el pangenoma está cerrado.


Usualmente, el software que analiza un pangenoma puede calcular los parámetros de la ley de Heaps que mejor describen el comportamiento de los datos.

Pangenoma abierto

Un pangenoma abierto ocurre cuando el número de nuevas familias de genes sigue aumentando en un linaje taxonómico y este incremento no parece ser asintótico independientemente de cuántos genomas nuevos se agreguen al pangenoma. Escherichia coli es un ejemplo de una especie con un pangenoma abierto. Cualquier tamaño de genoma de E. coli tiene un rango de 4,000-5,000 genes y el tamaño del pangenoma estimado para esta especie considerando aproximadamente 2,000 genomas está compuesto por 89,000 familias de genes diferentes.​ El pangenoma del dominio bacteria también se considera abierto.

Pangenoma cerrado

Un pangenoma cerrado ocurre en un linaje cuando solo se agregan unas pocas familias de genes al momento de incorporar nuevos genomas al análisis del pangenoma, y la cantidad total de familias de genes en el pangenoma parece ser asintótica a un número. Se cree que el parasitismo y las especies que son especialistas en algún nicho ecológico tienden a tener pangenomas cerrados. Staphylococcus lugdunensis es un ejemplo de bacteria comensal con pangenoma cerrado​.

Historia

Pangenoma

El concepto original de pangenoma fue desarrollado por Tetellin y colaboradores​ cuando analizaron los genomas de ocho aislados de Streptococcus agalactiae. En este análisis describieron un genoma central, el cual es compartido por los ocho genomas y representa aproximadamente el 80% de cada uno de los genomas; además, describieron un genoma accesorio que contiene los genes que son parcialmente compartidos y los genes que son únicos de las cepas. La extrapolación sugiere que la cantidad de genes en el pangenoma de S. agalactiae es enorme y  seguirán identificando nuevos genes únicos incluso después de haber secuenciado cientos de genomas​. El pangenoma comprende la cantidad total de los genes descubiertos en los genomas secuenciados de una determinada especie microbiana y esta cantidad puede ir cambiando cuando se secuencias nuevos genomas y se incorporan al pangenoma.

El supergenoma es definido como todos los genes accesibles para ciertas especies, el pangenoma si la secuenciación de todos los genomas estuviera disponible. Metapangenoma es el análisis del pangenoma aplicado a muestras metagenómicas, donde la unión de genes de varias especies es evaluada según un hábitat dado.

El pangenoma de un linaje explica la variabilidad intra-linaje del contenido génico. El pangenoma evoluciona por medio de diversos mecanismos como lo son: la duplicación de genes, la ganancia y pérdida de genes y la interacción del genoma con elementos móviles que están moldeados por la selección y la deriva​. Además, algunos estudios señalan que los pangenomas de procariotas son el resultado de una evolución adaptativa, no neutral, que confiere a las especie la capacidad de migrar a nuevos nichos ​.

Supergenoma

El supergenoma puede ser pensado como el tamaño real del pangenoma si todos los genomas de una especie son secuenciados​. Este se define como todos los genes accesibles para ser adquiridos por una determinada especie. Esto no puede ser calculado directamente pero el tamaño puede ser estimado a partir del tamaño del pangenoma calculado con datos genómicos disponibles. Estimar el tamaño del genoma accesorio puede ser problemático, porque depende de la ocurrencia de genes y genomas raros. En 2011 la fluidez genómica fue propuesta como una medida para categorizar la similitud a nivel de genes entre grupos de aislados secuenciados​. En algunos lineages los supergenomas pueden aparentar ser infinitos​, como en el caso del dominio Bacteria​.

Metapangenoma

Metapangenoma ha sido definido como el resultado del análisis de pangenomas junto con el entorno donde la abundancia y la prevalencia de grupos de genes y genomas se recuperan a través de metagenomas de shotgun​. La combinación de metagenomas con pangenomas, también conocida como Metapangenómica, revela los resultados a nivel de población del filtrado específico del hábitat del acervo genético pangenómico​.

Algunos autores consideran que la Metapangenómica amplía el concepto de pangenoma al incorporar secuencias génicas obtenidas de microorganismos no cultivados mediante un enfoque metagenómico. Un metapangenoma comprende secuencias de genomas ensamblados a partir de metagenomas (MAGs) y los genomas obtenidos de microorganismos cultivados​. La metagenómica se ha aplicado para evaluar la diversidad de una comunidad, la adaptación al nicho microbiano, la evolución microbiana, las actividades funcionales  y las redes de interacción de la comunidad ​. La plataforma Anvi ́o desarrolló un flujo de trabajo que integra el análisis y la visualización de metapangenomas generando pangenomas y estudiándolos junto con metagenomas​.

Ejemplos

Pangenoma procariótico

El pangenoma de S. pneumoniae. (a) Numero de nuevos genes como función del número de genomas secuenciados. El numero predicho de nuevos genomas cae notoriamente cuando el número de genomas excede la cantidad de 50. (b) Numero de genes centrales como función de genomas secuenciados. El número de genes centrales converge a 1,647 para un número de genomas n →∞. De Donati et al. ​

En 2018, el 87% de las secuencias genómicas completas disponibles eran de bacterias, lo cual impulsaba a los investigadores a calcular los pangenomas procarióticos en diferentes niveles taxonómicos​. En 2015, el pangenoma de 44 cepas de la bacteria Streptococcus pneumoniae mostró pocos genes nuevos descubiertos con cada genoma nuevo secuenciado (ver figura). De hecho, el número predicho de genes nuevos descendió a cero cuando el número de genomas excedió el 50 (sin embargo, este patrón no es igual en todas las especies). Esto significaría que S. pneumoniae tiene un “pangenoma cerrado”​. La fuente principal de genes nuevos en S. pneumoniae fue Streptococcus mitis a partir del cual los genes fueron transferidos horizontalmente. El tamaño del pangenoma de S. pneumoniae incrementó logarítmicamente con el número de cepas y linealmente con el número de sitios polimórficos de los genomas muestreados, lo que sugirió que los genes adquiridos se acumulan proporcionalmente a la edad de las clonas​. Otro ejemplo de un pangenoma procariótico es Prochlorococcus, en el cual el conjunto de genes centrales es mucho menor que el pangenoma, el cual es usado por diferentes ecotipos de Prochlorococcus ​. Pangenomas abiertos han sido observados en aislados ambientales tales como Alcaligenes sp.​ y Serratia sp.​, que tienen un estilo de vida simpátrico. Sin embargo, los pangenomas abiertos no son exclusivos de los microorganismos de vida libre. Un estudio de 2015 de la bacteria Prevotella aislada de humanos, comparada con el repertorio de genes de su especie proveniente de diferentes partes del cuerpo humano, también mostró un pangenoma abierto con un acervo genético diverso​.

También existen algunos estudios de pangenómica de arqueas. El pangenoma de Halobacteria tiene la cantidad siguiente de familias génicas divididas en los subconjuntos del pangenoma: genoma central(300), genoma accesorio (genoma central relajado: 998, diferencial: 36531, periférico: 11784)​.

Pangenoma eucariótico

Los organismos eucarióticos como los hongos, animales y plantas también han mostrado evidencias de tener pangenomas. En cuatro especies de hongos cuyo pangenoma fue estudiado, entre el 80 y el 90% de los modelos génicos fueron identificados como genes centrales. Los genes accesorios restantes están involucrados principalmente en patogénesis y resistencia antimicrobiana​.

En los animales se ha estudiado el pangenoma humano. En 2010 un estudio estimó que el pangenoma humano completo contiene ~19-40 Megabases de secuencias nuevas no presentes en el genoma actual de referencia​. En 2021 el consorcio del Pangenoma Humano tiene el objetivo de reconocer toda la diversidad genómica humana.

Entre las plantas hay ejemplos de pangenomas estudiados en especies modelo, tanto diploides​ como poliploides​, y una creciente lista de cultivos​​. Un concepto emergente basado en las plantas es el del pan-NLRome, el cual es el repertorio de las proteínas de unión a nucleótidos con repeticiones ricas en leucina (NLR), receptores inmunológicos intracelulares que reconocen proteínas de patógenos y confieren resistencia a enfermedades​.

Pangenoma viral

Los virus no necesariamente tienen genes extensivamente compartidos por clados, como es el gen 16S en las bacterias, y por lo tanto el genoma central del dominio viral completo está vacío. Sin embargo, varios estudios han calculado el pangenoma de algunos linajes virales. El genoma central de seis especies de pandoraviruses comprende 352 familias génicas, sólo el 4.7% del pangenoma, lo cual resulta en un pangenoma abierto​.

Estructura de datos y herramientas de software

Estructuras de datos

Análisis del pangenoma de Streptococcus Agalactie. ​ Ejemplo de filogenias generadas con el software BPGA. Este software nos permite generar filogenias basadas en el genoma central o el pangenoma.

La cantidad de genomas secuenciados está creciendo continuamente “simplemente escalar los procedimientos bioinformáticos establecidos no será suficiente para aprovechar el potencial completo de los conjuntos de datos genómicos tan abundantes”​. Las gráficas de pangenomas son estructuras de datos emergentes diseñadas para representar los pangenomas y mapear eficientemente lecturas a ellos. Estas han sido revisadas por Eizenga et al​.

Herramientas de software

Conforme el interés en los pangenomas ha ido aumentando, se han desarrollado varias herramientas de software para ayudar a analizar este tipo de datos. Para iniciar un análisis pangenómico el primer paso es la homogeneización de la anotación de los genomas​. El mismo software debe ser usado para anotar todos los genomas usados, como GeneMark​ o RAST​. En 2015, un grupo revisó diferentes tipos de análisis y herramientas accesibles para los investigadores​. Hay siete tipos de software especializado en pangenomas: dedicados a conglomerar genes homólogos, identificar SNPs, graficar perfiles pangenómicos, construir relaciones filogenéticas de genes/familias ortólogas de cepas/aislados, hacer búsqueda basada en funcionalidad, anotación y/o curación y visualización​.

Los dos softwares más citados para el análisis pangenómico para finales del 2014​ fueron Panseq​ y PGAP (Pan-genomes analysis pipeline)​. Otras opciones incluyen BPGA (A Pan-Genome Analysis Pipeline for prolaryotic genomes)​, GET_HOMOLOGUES​, Roary​ y PanDelos​. En 2015 fueron publicados un artículo de revisión concentrado en pangenomas procarióticos​ y otro para pangenomas de plantas​. Dentro de los primeros paquetes de software diseñados para pangenomas de plantas estuvieron PanTools​ y GET_HOMOLOGUES-EST​​. En 2018 panX fue liberado, una herramienta web interactiva que permite la inspección de la historia evolutiva de familias de genes​. PanX puede mostrar un alineamiento de genomas, un árbol filogenético, alineamiento de mutaciones e inferencias acerca de la ganancia y pérdida de la familia en relación con la filogenia del genoma central. En 2019 OrthoVenn 2.0​ permitió la visualización comparativa de familias de genes homólogos en diagramas de Venn para hasta 12 genomas. En 2020 Anvi’o​ estaba disponible como una plataforma multi-ómica que contenía análisis pangenómicos y metapangenómicos así como flujos de trabajo de visualización. En Anvi’o, los genomas se muestran en círculos concéntricos y cada radio representa una familia de genes, permitiendo la comparación de más de 100 genomas en su visualización interactiva.

En 2020, una comparación de herramientas para extraer contenido pangenómico basado en genes (como GET_HOMOLOGUES, PanDelos, Roary, y otros) fue publicada​. Las herramientas fueron comparadas desde una perspectiva metodológica, analizando las causas que llevaron a cierta metodología a superar otras herramientas. Los análisis fueron hechos tomando en cuenta diferentes poblaciones de bacterias, las cuales eran sintéticamente generadas cambiando los parámetros de evolución. Los resultados mostraron diferente desempeño de cada herramienta que dependía de la composición de los genomas de entrada.

Véase también


Новое сообщение