Русская Википедия:Pfam

Pfam — база данных семейств белковых доменов. Каждое семейство в ней представлено множественным выравниванием фрагментов белковых последовательностей и скрытой марковской моделью (HMM). На март 2021 года в Pfam содержалось 19 179 записей (семейств), объединённых в 645 кланов^[1].

История

База данных Pfam основана в 1997 году исследователями из Института Сенгера Шаблон:Sfn и активно поддерживается консорциумом учёных из разных стран^[2]. С 2011 года для записей с известной функциональной аннотацией существуют статьи в англоязычной WikipediaШаблон:Sfn. На начало 2021, в 77 % последовательностей базы UniProt детектирован хотя бы один домен, описанный в Pfam, эти домены покрывают 53,2 % общей длины этих последовательностейШаблон:Sfn.

В журнале «Nucleic Acids Research» периодически выходят статьи, описывающие развитие и состояние Pfam^[3]. Текущая версия Pfam 34.0 построена по базе данных Pfamseq, основанной на релизе UniProtKB 2020_06^[4]. Pfamseq содержит 57 млн. аминокислотных последовательностей общей длиной 21,7 млрд. аминокислотных остатков^[5].

Структура Pfam

В Pfam существует две категории семейств белковых доменов: Pfam-A и Pfam-B. Домены не перекрываются — в базе данных нет таких белков, в которых хотя бы один аминокислотный остаток принадлежит одновременно к двум разным доменам. Некоторые семейства, имеющие общее эволюционное происхождение и сохранившие сходство на уровне последовательностей или структур, объединены в кланы. Коллекция кланов называется Pfam-C.

Pfam-A

Pfam-A содержит семейства, которые курируются вручную. Для формирования каждого семейства Pfam-A строится исходное выравнивание (seed alignment) из его наиболее репрезентативных представителей. На его основе создается скрытая марковская модель (HMM), также именуемая профиль. Она состоит из состояний «сопоставление», «вставка» и «делеция» для каждой колонки множественного выравнивания с присвоенными эмиссионными вероятностями для всех аминокислот в первом из этих состоянийШаблон:Sfn. Данные эмиссионные вероятности представлены для каждого семейства на его странице в виде sequence logo.

После этого осуществляется поиск с помощью полученной HMM по базе данных Pfamseq, соответствующей последнему релизу UniProtKB. Все последовательности, для которых рейтинг соответствия HMM превышает некоторый порог, вручную устанавливаемый для каждого семейства, включаются в полное выравнивание (full alignment). Если оказывается, что некоторые представители семейства не обнаруживаются при поиске с помощью HMM, исходное множественное выравнивание редактируется до достижения оптимального результатаШаблон:Sfn. Полученные HMM сохраняются в базе данных Pfam и могут быть использованы для поиска доменов в новых белковых последовательностях через веб-интерфейс.

Описания семейств преимущественно содержатся в Wikipedia и открыты для публичного редактирования. Однако, необходимо заметить, что более четверти всех семейств не имеет функциональной аннотации, такие домены обозначаются как Шаблон:Не переведено 5 (англ. Domain of unknown function). Также для каждого семейства содержится информация о его представленности в различных таксонах, варианты доменной структуры содержащих его белков и филогенетическое дерево исходного выравнивания. В тех случаях, когда это возможно, присутствуют данные о белок-белковых взаимодействиях, полученные при помощи iPfam Шаблон:Wayback, и ссылки на трехмерные структуры в базе данных PDB.

Pfam-B

В дополнение к курируемым вручную семействам, Pfam содержит семейства Pfam-B, генерируемые автоматически с использованием программы MMSeqs2. Они не имеют функциональной аннотации, и, как правило, имеют значительно худшее качество по сравнению с семействами Pfam-A. Некоторые из них представляют регионы низкой сложности и не отражают истинного родства белковых последовательностей, поэтому рекомендуется проверка гомологии представителей семейств Pfam-B с помощью других методов, например, BLAST. Выравнивания последовательностей белков для семейств Pfam-B не доступны через веб-интерфейс Pfam, но могут быть скачаны в виде архива.

Кланы

Кланы (Pfam-C) — это объединения семейств белковых доменов, имеющих общее эволюционное происхождение. Для формирования кланов золотым стандартом служит сравнение трехмерных структур доменов, в их отсутствие также может использоваться заметное сходство профилей (которое может быть определено с помощью программы HHsearch) или сходство результатов поиска по базе данных с использованием различных профилей (определяемое программой SCOOP). Для кланов, также как и для семейств Pfam-A, предоставляется общее выравнивание всех его представителей, информация о распределении по таксонам, данные о белок-белковых взаимодействиях и ссылки на трехмерные структуры.

Классификация записей

Запись Pfam — это набор сходных участков белковых последовательностей. Все записи относят к одному из шести типовШаблон:Sfn:

Family (Семейство) — базовый тип, набор родственных (гомологичных) участков;
Domain (Домен) — устойчивая структурная единица, или, по крайней мере, функциональный участок, встречающийся в различных белковых архитектурах;
Repeat (Повтор) — короткий участок, который является неустойчивым в изоляции, но образует стабильную структуру, когда присутствуют несколько его копий;
Motif (Мотив) — короткий консервативный участок вне глобулярных доменов;
Coiled-Coil (Суперспиральный блок) — области, формирующие суперспирали, т.е. пучки из 2-7 скрученных альфа-спиралей;
Disordered (Неструктурированный блок) — консервативные участки со смещенным аминокислотным составом, не формирующие устойчивой (глобулярной) структуры.

Зачастую термин family (семейство) используется, в том числе на сайте Pfam, вместо термина entry (запись), что создает значительную путаницу.

Возможности

Сайт Pfam предоставляет интерактивный доступ к данным, а также возможность просматривать данные в графическом виде.

Окно «Jump to…», присутствующее на большинстве страниц Pfam, позволяет быстро провести поиск семейств или кланов по идентификатору (ID) или коду доступа (accession). В верхней части любой страницы Pfam имеется также окно поиска семейств по ключевому слову, «keyword search»^[6].

Путём поиска последовательности белка по библиотеке HMM в Pfam можно выяснить его доменную архитектуру. Для многих известных белковых последовательностей она уже вычислена: чтобы просмотреть её, нужно ввести идентификатор или код доступа последовательности в окне вкладки «view a sequence» на главной странице сайта. Если же последовательность не распознается Pfam, можно воспользоваться страницей поиска, где нужно ввести аминокислотную или нуклеотидную последовательность^[6].

Если требуется провести поиск большого количества последовательностей, на вкладке «Batch search» страницы поиска можно загрузить файл с последовательностями в формате FASTA, при этом в каждом файле должно быть не больше 5000 последовательностей. В этом случае пользователь получает результаты в течение 48 часов по e-mail адресу, который нужно также указать на странице поиска^[6]. Также есть возможность провести поиск локально, с помощью скрипта «pfam_scan.pl». Для этого потребуется программное обеспечение Шаблон:Не переведено 5, библиотеки HMM и некоторые другие дополнительные файлы, которые можно найти на сайте Pfam^[6].

В Pfam имеются вычисленные доменные архитектуры для протеомов базы Integr8^[7]. Доступ к этим данным открыт в графе «Proteomes» на странице «Browse». Для представленных здесь организмов имеется информация о доменном составе и доменных архитектурах их белков.

Pfam также предоставляет возможность поиска белков по доменной архитектуре. Для этого на вкладке «Domain architecture» страницы поиска в специальном окне нужно выбрать домены, которые должны входить или не входить в целевой белок. Можно также использовать Java-апплет PfamAlyzer, обладающий более широкими возможностямиШаблон:Sfn.

Примечания

Шаблон:Примечания

Литература

Шаблон:Статья

Шаблон:Статья

Шаблон:Статья

Шаблон:Статья

Шаблон:Статья

Шаблон:Добротная статья

[release_34.0-1] Шаблон:Cite web

[Team_members-2] Шаблон:Cite web

[References-3] Шаблон:Cite web

[about-4] Шаблон:Cite web

[relnotes_34.0-5] Шаблон:Cite web

[getting_started-6] 6,0 ^6,1 ^6,2 ^6,3 Шаблон:Cite web

[integr8-7] Шаблон:Cite web

[1]

[2]

[3]

[4]

[5]

[6]

[7]

Партнерские ресурсы
Криптовалюты	Обмен криптовалют - www.bestchange.ru Криптовалютная биржа CoinEx Криптовалютная биржа Binance HIVE OS - операционная система для майнинга e4pool - Мультивалютный пул для майнинга.
Магазины	AliExpress — глобальная виртуальная (в Интернете) торговая площадка, предоставляющая возможность покупать товары производителей из КНР; computeruniverse.net - Интернет-магазин компьютеров(Промо код 5 Евро на первую покупку:FWWC3ZKQ);
Хостинг	DigitalOcean - американский провайдер облачных инфраструктур, с главным офисом в Нью-Йорке и с центрами обработки данных по всему миру;
Разное	Викиум - Онлайн-тренажер для мозга Like Центр - Центр поддержки и развития предпринимательства. Gamersbay - лучший магазин по бустингу для World of Warcraft. Ноотропы OmniMind N°1 - Усиливает мозговую активность. Повышает мотивацию. Улучшает память. Санкт-Петербургская школа телевидения - это федеральная сеть образовательных центров, которая имеет филиалы в 37 городах России. Lingualeo.com — интерактивный онлайн-сервис для изучения и практики английского языка в увлекательной игровой форме. Junyschool (Джунискул) – международная школа программирования и дизайна для детей и подростков от 5 до 17 лет, где ученики осваивают компьютерную грамотность, развивают алгоритмическое и креативное мышление, изучают основы программирования и компьютерной графики, создают собственные проекты: игры, сайты, программы, приложения, анимации, 3D-модели, монтируют видео. Умназия - Интерактивные онлайн-курсы и тренажеры для развития мышления детей 6-13 лет SkillBox - это один из лидеров российского рынка онлайн-образования. Среди партнеров Skillbox ведущий разработчик сервисного дизайна AIC, медиа-компания Yoola, первое и самое крупное русскоязычное аналитическое агентство Tagline, онлайн-школа дизайна и иллюстрации Bang! Bang! Education, оператор PR-рынка PACO, студия рисования Draw&Go, агентство performance-маркетинга Ingate, scrum-студия Sibirix, имидж-лаборатория Персона. «Нетология» — это университет по подготовке и дополнительному обучению специалистов в области интернет-маркетинга, управления проектами и продуктами, дизайна, Data Science и разработки. В рамках Нетологии студенты получают ценные теоретические знания от лучших экспертов Рунета, выполняют практические задания на отработку полученных навыков, общаются с экспертами и единомышленниками. Познакомиться со всеми продуктами подробнее можно на сайте https://netology.ru, линейка курсов и профессий постоянно обновляется. StudyBay Brazil – это онлайн биржа для португалоговорящих студентов и авторов! Студент получает уникальную работу любого уровня сложности и больше свободного времени, в то время как у автора появляется дополнительный заработок и бесценный опыт. Автор24 — самая большая в России площадка по написанию учебных работ: контрольные и курсовые работы, дипломы, рефераты, решение задач, отчеты по практике, а так же любой другой вид работы. Сервис сотрудничает с более 70 000 авторов. Более 1 000 000 работ уже выполнено. StudyBay – это онлайн биржа для англоязычных студентов и авторов! Студент получает уникальную работу любого уровня сложности и больше свободного времени, в то время как у автора появляется дополнительный заработок и бесценный опыт.

Русская Википедия:Pfam

Содержание

История

Структура Pfam

Pfam-A

Pfam-B

Кланы

Классификация записей

Возможности

Примечания

Литература

Навигация

Действия на странице

Действия на странице

Персональные инструменты

Навигация

Поиск

Инструменты