Русская Википедия:Pfam

Материал из Онлайн справочника
Перейти к навигацииПерейти к поиску

Pfam — база данных семейств белковых доменов. Каждое семейство в ней представлено множественным выравниванием фрагментов белковых последовательностей и скрытой марковской моделью (HMM). На март 2021 года в Pfam содержалось 19 179 записей (семейств), объединённых в 645 кланов[1].

История

База данных Pfam основана в 1997 году исследователями из Института СенгераШаблон:Sfn и активно поддерживается консорциумом учёных из разных стран[2]. С 2011 года для записей с известной функциональной аннотацией существуют статьи в англоязычной WikipediaШаблон:Sfn. На начало 2021, в 77 % последовательностей базы UniProt детектирован хотя бы один домен, описанный в Pfam, эти домены покрывают 53,2 % общей длины этих последовательностейШаблон:Sfn.

В журнале «Nucleic Acids Research» периодически выходят статьи, описывающие развитие и состояние Pfam[3]. Текущая версия Pfam 34.0 построена по базе данных Pfamseq, основанной на релизе UniProtKB 2020_06[4]. Pfamseq содержит 57 млн. аминокислотных последовательностей общей длиной 21,7 млрд. аминокислотных остатков[5].

Структура Pfam

В Pfam существует две категории семейств белковых доменов: Pfam-A и Pfam-B. Домены не перекрываются — в базе данных нет таких белков, в которых хотя бы один аминокислотный остаток принадлежит одновременно к двум разным доменам. Некоторые семейства, имеющие общее эволюционное происхождение и сохранившие сходство на уровне последовательностей или структур, объединены в кланы. Коллекция кланов называется Pfam-C.

Pfam-A

Pfam-A содержит семейства, которые курируются вручную. Для формирования каждого семейства Pfam-A строится исходное выравнивание (seed alignment) из его наиболее репрезентативных представителей. На его основе создается скрытая марковская модель (HMM), также именуемая профиль. Она состоит из состояний «сопоставление», «вставка» и «делеция» для каждой колонки множественного выравнивания с присвоенными эмиссионными вероятностями для всех аминокислот в первом из этих состоянийШаблон:Sfn. Данные эмиссионные вероятности представлены для каждого семейства на его странице в виде sequence logo.

После этого осуществляется поиск с помощью полученной HMM по базе данных Pfamseq, соответствующей последнему релизу UniProtKB. Все последовательности, для которых рейтинг соответствия HMM превышает некоторый порог, вручную устанавливаемый для каждого семейства, включаются в полное выравнивание (full alignment). Если оказывается, что некоторые представители семейства не обнаруживаются при поиске с помощью HMM, исходное множественное выравнивание редактируется до достижения оптимального результатаШаблон:Sfn. Полученные HMM сохраняются в базе данных Pfam и могут быть использованы для поиска доменов в новых белковых последовательностях через веб-интерфейс.

Описания семейств преимущественно содержатся в Wikipedia и открыты для публичного редактирования. Однако, необходимо заметить, что более четверти всех семейств не имеет функциональной аннотации, такие домены обозначаются как Шаблон:Не переведено 5 (англ. Domain of unknown function). Также для каждого семейства содержится информация о его представленности в различных таксонах, варианты доменной структуры содержащих его белков и филогенетическое дерево исходного выравнивания. В тех случаях, когда это возможно, присутствуют данные о белок-белковых взаимодействиях, полученные при помощи iPfam Шаблон:Wayback, и ссылки на трехмерные структуры в базе данных PDB.

Pfam-B

В дополнение к курируемым вручную семействам, Pfam содержит семейства Pfam-B, генерируемые автоматически с использованием программы MMSeqs2. Они не имеют функциональной аннотации, и, как правило, имеют значительно худшее качество по сравнению с семействами Pfam-A. Некоторые из них представляют регионы низкой сложности и не отражают истинного родства белковых последовательностей, поэтому рекомендуется проверка гомологии представителей семейств Pfam-B с помощью других методов, например, BLAST. Выравнивания последовательностей белков для семейств Pfam-B не доступны через веб-интерфейс Pfam, но могут быть скачаны в виде архива.

Кланы

Кланы (Pfam-C) — это объединения семейств белковых доменов, имеющих общее эволюционное происхождение. Для формирования кланов золотым стандартом служит сравнение трехмерных структур доменов, в их отсутствие также может использоваться заметное сходство профилей (которое может быть определено с помощью программы HHsearch) или сходство результатов поиска по базе данных с использованием различных профилей (определяемое программой SCOOP). Для кланов, также как и для семейств Pfam-A, предоставляется общее выравнивание всех его представителей, информация о распределении по таксонам, данные о белок-белковых взаимодействиях и ссылки на трехмерные структуры.

Классификация записей

Запись Pfam — это набор сходных участков белковых последовательностей. Все записи относят к одному из шести типовШаблон:Sfn:

  1. Family (Семейство) — базовый тип, набор родственных (гомологичных) участков;
  2. Domain (Домен) — устойчивая структурная единица, или, по крайней мере, функциональный участок, встречающийся в различных белковых архитектурах;
  3. Repeat (Повтор) — короткий участок, который является неустойчивым в изоляции, но образует стабильную структуру, когда присутствуют несколько его копий;
  4. Motif (Мотив) — короткий консервативный участок вне глобулярных доменов;
  5. Coiled-Coil (Суперспиральный блок) — области, формирующие суперспирали, т.е. пучки из 2-7 скрученных альфа-спиралей;
  6. Disordered (Неструктурированный блок) — консервативные участки со смещенным аминокислотным составом, не формирующие устойчивой (глобулярной) структуры.

Зачастую термин family (семейство) используется, в том числе на сайте Pfam, вместо термина entry (запись), что создает значительную путаницу.

Возможности

Сайт Pfam предоставляет интерактивный доступ к данным, а также возможность просматривать данные в графическом виде.

Окно «Jump to…», присутствующее на большинстве страниц Pfam, позволяет быстро провести поиск семейств или кланов по идентификатору (ID) или коду доступа (accession). В верхней части любой страницы Pfam имеется также окно поиска семейств по ключевому слову, «keyword search»[6].

Путём поиска последовательности белка по библиотеке HMM в Pfam можно выяснить его доменную архитектуру. Для многих известных белковых последовательностей она уже вычислена: чтобы просмотреть её, нужно ввести идентификатор или код доступа последовательности в окне вкладки «view a sequence» на главной странице сайта. Если же последовательность не распознается Pfam, можно воспользоваться страницей поиска, где нужно ввести аминокислотную или нуклеотидную последовательность[6].

Если требуется провести поиск большого количества последовательностей, на вкладке «Batch search» страницы поиска можно загрузить файл с последовательностями в формате FASTA, при этом в каждом файле должно быть не больше 5000 последовательностей. В этом случае пользователь получает результаты в течение 48 часов по e-mail адресу, который нужно также указать на странице поиска[6]. Также есть возможность провести поиск локально, с помощью скрипта «pfam_scan.pl». Для этого потребуется программное обеспечение Шаблон:Не переведено 5, библиотеки HMM и некоторые другие дополнительные файлы, которые можно найти на сайте Pfam[6].

В Pfam имеются вычисленные доменные архитектуры для протеомов базы Integr8[7]. Доступ к этим данным открыт в графе «Proteomes» на странице «Browse». Для представленных здесь организмов имеется информация о доменном составе и доменных архитектурах их белков.

Pfam также предоставляет возможность поиска белков по доменной архитектуре. Для этого на вкладке «Domain architecture» страницы поиска в специальном окне нужно выбрать домены, которые должны входить или не входить в целевой белок. Можно также использовать Java-апплет PfamAlyzer, обладающий более широкими возможностямиШаблон:Sfn.

Примечания

Шаблон:Примечания

Литература

Шаблон:Добротная статья