Русская Википедия:Пангеном

Материал из Онлайн справочника
Перейти к навигацииПерейти к поиску

Пангено́м[1], также супрагеном (англ. pan-genome[2], pangenome[3], supragenome[4]) — совокупность всех генов рассматриваемой группы организмов (как правило, монофилетической), для которой возможно генетическое разнообразие между близкородственными штаммами или экотипами (Рис. 1). Пангеном объединяет набор генов всех штаммов, составляющих кладу[5]: вид[2], род[6] или таксон более высокого порядка[7]. Традиционно понятие пангенома применяется к видам бактерий и архей.

Обычно пангеном характеризуется U-кривой — графиком, показывающим зависимость между количеством штаммов и количеством групп генов, которые присутствуют ровно в этом числе штаммов[8] (Рис. 2).

Файл:Pangenome-block-scheme.png
Рис. 1. Схематическое изображение группы близкородственных геномов с различающимся составом генов.
Файл:U curve.png
Рис. 2. U-кривая — зависимость количества ортологичных групп генов от количества штаммов, в которых эти гены присутствуют.

Концепция пангенома

В традиционном понимании термин «пангеном» и его определение были введены в 2005 году Херве Теттелином[2]. К этому времени были расшифрованы геномы многих модельных организмов, таких, как гемофильная палочка (Haemophilus influenzae) — первый отсеквенированный геном[9] — и кишечная палочка (Escherichia coli). Успехи этих исследований были столь значительными, что расшифровка одного Шаблон:Нп5 (эталонного) генома для каждого вида считалась учеными достаточной для понимания всех биологических процессов. Однако развитие технологий секвенирования позволило быстро определять последовательности ДНК для многих штаммов бактерий одного вида[10].

Сравнив геномы восьми штаммов одного из видов стрептококка (Streptococcus agalactiae), Теттелин обнаружил значительное различие между геномами разных штаммов: каждый новый штамм отличался от остальных в среднем на 33 гена. Так было показано существование значительного генетического разнообразия внутри видов. Информация о внутривидовом разнообразии может быть использована для изучения эволюции, а также для оценки метаболических возможностей вида в медицинских и биотехнологических целях, что и привело к идее исследования пангеномов, то есть генов всех имеющихся штаммов вида в совокупности[2].

Ввиду быстрых скоростей эволюции проблема внутривидового генетического разнообразия особенно остро стоит для бактерий и архей. Так, известно, что три первых отсеквенированных штамма кишечной палочки совпали по составу генов лишь на 39 %[11].

Структурные элементы пангенома

Файл:Pangenome venn diagram.png
Рис. 3. Изображение универсальной и вариабельной частей пангенома в виде диаграммы Венна.

Пангеном традиционно разделяется на три части[12]. Первая часть — универсальный геном — гены, присутствующие во всех штаммах исследуемого таксона. В этой части оказываются гены, необходимые для существования бактерии, а именно кодирующие белки систем трансляции, репликации и получения энергии. Также используют понятие «мягкого» универсального генома, включающего гены, которые присутствуют у 92 — 95 % штаммов. Такую поправку делают из расчета на ошибки сборки и Шаблон:Нп5[13]. Второй структурный элемент — уникальные гены, имеющиеся в единственном экземпляре лишь у одного из штаммов, и собственно определяющие различия между штаммами и серотипами бактерий. Значительную долю уникальных генов опять же составляют ошибки аннотации генов, поэтому во многих исследованиях этот элемент исключается из рассмотрения. Третья часть расположена между первыми двумя — это геном периферии (вариабельный геном)[5][14][15]. Его составляют гены, которые присутствуют в геномах не у всех штаммов рассматриваемого таксона[2][16], и отвечают за приспособление штаммов к выживанию в определённых экологических нишах (например, необходимые для фотосинтеза или симбиоза). Пангеном удобно визуально представлять в виде диаграммы Венна, показывающей степень сходства геномов, которые использовались для его построения (Рис. 3).

Типы пангенома по размеру

Важным показателем генетического разнообразия внутри таксона является понятие открытого и закрытого пангеномов[2] (Рис. 4).

  • Если при добавлении каждого нового штамма в рассмотрение общее количество генов в таксоне продолжает расти, то такой пангеном называют открытым.
  • Если, начиная с некоторого количества штаммов, размер пангенома достигает насыщения, то такой пангеном называется закрытым.

Наличие у вида открытого пангенома позволяет судить о значительном внутривидовом генетическом разнообразии вида. Это, как правило, связано с большим количеством событий горизонтального переноса генов, происходящих внутри данного вида. У большинства видов бактерий открытый пангеном, в частности, у кишечной палочки[17].

Файл:Open and closed pangenomes.png
Рис. 4. Изображение открытого и закрытого пангеномов в виде диаграмм Венна.

У групп с закрытым пангеномом большая часть генов являются универсальными для всех рассматриваемых штаммов, поэтому и общее количество генов в закрытом пангеноме, как правило, меньше, чем в открытом. Примером вида бактерий с закрытым пангеномом является возбудитель сибирской язвы Bacillus anthracis. После рассмотрения четырёх штаммов этого вида последующее добавление новых штаммов не приводит к увеличению размера пангенома. Это объясняется тем фактом, что этот вид возник сравнительно недавно, и его генетическое разнообразие заключено в основном на плазмиде, содержащей гены вирулентности[18][19].

Однако было замечено, что генетически Bacillus anthracis скорее напоминает клон другого вида — Bacillus cereus, нежели является независимым видом. Возбудителя сибирской язвы отличают от родственника лишь две плазмиды, одна из которых кодирует токсин[20]. Этот пример демонстрирует несоответствие критерия выделения видов реальной генетической информации[21]. Существует мнение, что только вид, обладающий открытым пангеномом, является настоящим видом[2].

Факторы, определяющие размер пангенома

Размер пангенома может отражать взаимодействие рассматриваемой группы с факторами окружающей среды. Такое взаимодействие заключается в балансировании между процессами потери и приобретения генов. Например, значительное изменение экологической обстановки приводит к тому, что многие функции становятся ненужными, в результате чего происходит потеря генов белков, выполняющих эти функции. Утрата генов наблюдается у эндосимбионтов (организмов, живущих внутри чужих клеток) и других аллопатрических видов (живущих в изолированных географических нишах), для которых характерны небольшие закрытые пангеномы[22]. Наоборот, группы, обитающие в большом количестве разнообразных экологических ниш взаимодействуют со своими соседями, приобретая новые гены путем горизонтального переноса. Среди приобретенных участков генома значительную часть составляют «эгоистичные» мобильные элементы. Бактериофаги, интегразы, транспозазы и другие системы способствуют накоплению в геноме эгоистичных элементов. Вся их совокупность в геноме называется Шаблон:Нп5 Чем больше количество видов-соседей, тем больше вероятность для вида приобрести паразитические мобильные элементы. В результате симпатричные виды бактерий, сосуществующие с большим количеством видов-соседей, имеют открытые пангеномы.[23]

Построение и анализ пангеномов

Создание и анализ пангеномов сопряжены с рядом трудностей, не в последнюю очередь связанных с объёмом используемых данных. Все методы для построения пангеномов и дальнейшего анализа можно разделить на две группы по принятому в них определению пангенома: основанные на аннотациях генов и основанные на последовательностях[24].

Методы, основанные на аннотациях генов

В данной группе методов за пангеном принимается совокупность генов как функциональных единиц, и работа проводится на наборе генных аннотаций для исследуемой группы организмов. В рабочем процессе можно выделить три этапа[24]:

  • построение ортологических рядов;
  • идентификация пангенома;
  • дальнейший анализ.

Структура построенного пангенома напрямую зависит от точности разбиения генов на ортологические группы. В подавляющем большинстве случаев для нахождения ортологов используются подходы, основанные на построении графов[25]: последовательности объявляются вершинами, ребра графа взвешиваются согласно попарному сходству последовательностей. Для выявления мульти-видовых ортологических групп последовательности кластеризуют[25], оценивая вхождение гена в группу по выбранному порогу. После этого строится сам пангеном. Методы дальнейшего анализа могут включать в себя множественное выравнивание последовательностей универсальной части пангенома, реконструкцию филогении, различные визуализации[24].

  • Программа Proteinortho[26] — один из популярных инструментов для построения ортологических рядов.
  • OrthoMCL — ещё один популярный метод построения ортологических рядов, позволяет группировать ортологичные и паралогичные гены.
  • PGAT (The Prokaryotic-genome Analysis Tool)[27] — веб-сервис, основанный на базе данных геномов различных прокариот. Позволяет идентифицировать гены, присутствующие или отсутствующие в выбранной группе организмов, получать информацию о SNP для каждого такого гена, строить множественные выравнивания, обращаться к базе метаболических путей KEGG. Функционал сервиса ограничен имеющимися в базе геномами, загружать свою информацию нельзя.
  • PGAP (The Pan-genome Analysis Pipeline)[28] — набор Perl-скриптов для анализа пангеномов, состоящий из пяти модулей. Среди доступных функций есть кластерный анализ функциональных генов, анализ пангеномного профиля и генетической вариации. В 2018 г. был представлен PGAP-X[29] — расширенный вариант PGAP, в который были добавлены модули для дополнительного анализа и визуализации. Новые аналитические компоненты позволяют строить выравнивание последовательностей и кластеризацию генов по ортологии. Модули визуализации позволяют сравнивать структуры геномов и строить распределения генов по консервативности и вариабельности.
  • GET_HOMOLOGUES[30] — пакет для анализа пангеномов. Пользователь может выбрать между тремя алгоритмами кластеризации ортологов, основанных на использовании алгоритма BLAST. Дополнительно есть возможность провести поиск HMM-профилей против базы Pfam для получения информации о доменном составе белков. Помимо трех основных частей пангенома программа также определяет «мягкий» универсальный геном.
  • PanCoreGen[31] — программа с графическим интерфейсом. Процедура построения пангенома основана на итеративном использовании BLASTN. Позволяет генерировать файлы со списками генов по типам в форматах FASTA и Excel, имеет доступ к базе NCBI.
  • Pan-Tetris[32] — программа для интерактивной визуализации пангеномов, которые находятся через построение локальных выравниваний ортологических групп генов с предварительно построенным «супергеномом». Интерактивное взаимодействие с результатом призвано помочь пользователям в нахождении ошибок аннотации.

Методы, основанные на последовательностях геномов

Термином «пангеном» также можно определить набор последовательностей геномов исследуемых организмов[33]. В отличие от предыдущего подхода, при построении этого типа пангеномов используются не ортологические ряды, а множественные выравнивания последовательностей, или графы, объединяющие сходные участки. Подобный подход позволяет избегать ошибок разметки генов при построении пангеномов эукариот, гены которых чаще различаются за счет однонуклеотидных полиморфизмов чем прокариотические.

  • Panseq[34] — онлайн-сервис, основанный на построении выравниваний. Позволяет строить множественные выравнивания генов универсального генома и бинарную матрицу присутствия генов периферии.
  • GenomeMapper[35] — программа, реализующая графовый метод построения пангенома. Каждый геном разбивается на блоки одинаковой длины, при этом блок, общий для нескольких геномов будет сохранен только один раз. Соседние блоки соединяются ребрами. После этого для всех последовательностей нуклеотидов определённой длины из каждого генома строится хеш-таблица блоков, в которых эти последовательности встречаются, и позиций, на которых они находятся в этих блоках. Для сжатия данных в программе используется обобщение BWT в виде конечного автомата[24].

Пангеномы в эволюционных исследованиях

Построение пангеномов является популярным инструментом при изучении эволюции организмов методами сравнительной геномики. Анализ пангенома позволяет определить уровень генетического разнообразия в рассматриваемой группе организмов. Генетическое разнообразие вида бактерий или архей, как правило, является результатом горизонтального переноса генов. События горизонтального переноса зачастую позволяют сделать выводы об эволюции групп организмов.

Файл:Streptococcus pneumoniae pan-genome Donati 2011.jpg
Рис. 5. Пангеном S. pneumoniae. (a) Зависимость количества новых генов от числа секвенированных геномов. (b) Зависимость количества универсальных генов от числа секвенированных геномов.[36]

Так, пангеном, построенный по 44 штаммам Streptococcus pneumoniae, оказался открытым, то есть добавление каждого нового генома увеличивало размер пангенома. Однако с помощью модели было предсказано, что после рассмотрения более чем 50 штаммов новые гены перестанут добавляться (Рис. 5). Основным источником новых генов в периферии пангенома, построенного на 44 штаммах, оказался другой вид стрептококка — Streptococcus mitis, чьи гены были получены путем горизонтального переноса.[36]

Эволюционная история генов, переносящихся горизонтально, не совпадает с таковой для генов, передающихся от предков к потомкам, то есть посредством вертикального переноса. Поэтому возникла идея о том, что эволюцию, прежде всего, микроорганизмов и некоторых высших организмов[37] более естественно представлять не в виде филогенетического дерева, а в виде филогенетической сети[38]. Информацию, необходимую для построения таких филогенетических сетей, извлекают именно из пангеномов[33].

Известны примеры использования пангеномов для уточнения эволюционных отношений между организмами. Так, при построении совместного пангенома кишечной палочки и бактерий рода Shigella было показано, что у этих бактерий одинаковый состав генов, то есть у шигелл нет значимых генетических отличий от кишечных палочек[8]. Это подтвердило более раннее исследование, в котором на основании анализа филогенетических деревьев был сделан вывод о том, что Shigella не являются отдельным родом[39]. Причина выделения шигелл в отдельный от кишечных палочек род — их патогенное действие, которое определяется генами вирулентности, расположенными на хромосоме[40]. Однако эти генетические различия между шигеллами и кишечными палочками не более значимы, чем таковые между патогенными и безвредными штаммами кишечных палочек[8].

Пангеномы в метагеномике

Пангеномы часто используются в метагеномных исследованиях, в которых в помощью секвенирования определяется видовой и количественный состав организмов в определённом местообитании. При этом используется непривычное определение пангенома: он строится для организмов, объединенных не общим происхождением, а совместным пребыванием в одной экологической нише в одно время. Применение пангенома позволяет выявить общие адаптации к факторам окружающей среды в конкретном местообитании[33]. Подобные исследования ограничены сложностью сборки геномов при метагеномных исследованиях.

Пангеномы в медицине

Так как патогенные микроорганизмы, как правило, приобретают инфекционные гены и гены устойчивости к антибиотикам путем горизонтального переноса, то построение пангенома можно применить в эпидемиологических исследованиях. К примеру, для вида-патогена очень важно знать размер вариабельного генома, так как чем он больше, тем более патоген склонен приобретать гены путем горизонтального переноса и, значит, тем опаснее патоген. Размер периферии принято оценивать с помощью доли универсального генома во всем пангеноме. Особенно полезно вычислять эту характеристику для патогенов, которые могут сохранять жизнеспособность во внешней среде. В этом случае есть опасность того, что патоген может приобрести гены устойчивости к антибиотикам при взаимодействии с видами из природных местообитаний[23].

Например, возбудитель сибирской язвы (Bacillus anthracis) сохраняет жизнеспособность в почве[41], но при этом обладает закрытым пангеномом и доля универсального генома у него составляет 99 %. Это можно объяснить тем, что Bacillus anthracis находится в почве в форме неактивных спор и не может в таком состоянии осуществлять обмен генами с другими почвенными организмами.

Другой пример — Legionella pneumophila — патоген человека, который способен жить внутри клеток амеб и не сохраняет жизнеспособность за их пределами[42]. Однако он обменивается генетической информацией с другими микроорганизмами, живущими внутри клеток амеб, чем и обусловлен его открытый пангеном.[23]

Новое определение референсного генома

В современной биоинформатике большое значение имеют эталонные референсные геномы. Они служат основой для исследований по функциональной геномике и при изучении генетического разнообразия путем ресеквенирования. Парадигма единственного референсного генома приобрела большую популярность благодаря простоте работы и визуализации: в большинстве геномных браузеров референсные геномы представлены в виде линейных последовательностей. Недостаток этого подхода заключается в том, что в условиях все растущего числа секвенированных геномов единственный референсный геном для вида не отражает внутривидовой вариабельности генома. Этот факт позволил переосмыслить понятие референсного генома вида[33].

Одна из идей заключается в том, чтобы использовать вместо одной последовательности референсного генома пангеном, который содержал бы информацию обо всем генетическом разнообразии вида. Развитие этой концепции сопряжено с рядом технических трудностей, так как, несмотря на большое количество пангеномных исследований, анализ в них осуществлен с помощью разных подходов. Более того, для многих биологических задач до сих пор не выяснено, как наилучшим образом извлекать информацию из отдельных пангеномов. Для решения задач подобного характера сформировалась дисциплина вычислительная пангеномика[33].

Расширенный пангеном человека

В майском номере журнала Nature за 2023 год было опубликовано описание пангенома человека, сделанного на основе полного генетического описания (Шаблон:Lang-en) 47 человек, включая выходцев из Африки, Азии, Карибского басейна, Америки и Европы. Ученые планируют в течение двух лет дать описание пангенома на основе генетического описания 350 человек, представляющих весь мир[43].

Примечания

Шаблон:Примечания

Шаблон:Хорошая статья