Русская Википедия:Ensembl
Ensembl — совместный научный проект Европейского института биоинформатики и Института Сенгера. Основной задачей этого проекта является обеспечение специалистов интегрированным доступом к базам данных, касающихся строения геномов более 50 видов позвоночных, включая человека (Homo sapiens), мышь (Mus musculus), крысу (Rattus norvegicus), рыбку Данио-рерио (Danio rerio) и др.[1] Проект был запущен в 1999 году перед завершением проекта «Геном человека»[2].
Базы данных Ensembl регулярно обновляются с частотой не менее двух раз в год. Текущая версия проекта 88 была опубликована 29 марта 2017 года[3]. Свежие новости проекта публикуются на официальном веб-сайте. Там же можно найти информацию об очных образовательных мероприятиях по работе с Ensembl[4]. Основам работы с системой можно также научиться, просмотрев тематические видео на сайте Ensembl и EMBL-EBI Шаблон:Wayback.
Аннотация генома
Основные элементы генома позвоночных
Проект Ensembl сосредоточен на предоставлении подробной информации о геномах позвоночных животных. Типичный размер такого генома составляет миллиарды пар оснований. Например, геном мыши (Mus musculus) и геном человека (Homo sapiens) содержат около 3 миллиардов пар оснований. Только несколько процентов генома представляют собой кодирующие последовательности, соответствующие примерно 20—25 тысячам генов в случае человека[5]. Кодирующие последовательности обладают неслучайной структурой, что позволяет обнаружить их при анализе генома. Некодирующие последовательности генома в некоторых случаях также являются биологически функциональными, подразделяясь на псевдогены, гены транспортной и рибосомной РНК, гены длинных некодирующих РНК, малых ядерных РНК, малых ядрышковых РНК, микроРНК и т.д. Работа с элементами генома возможна только при наличии информации о положении этого элемента и взаимодействии с другими. Разметка положения каждого такого элемента называется аннотацией генома[6].
Аннотация генома может быть проведена как вручную коллективом экспертов, так и с использованием автоматических программных подходов, как это реализовано в Ensembl[7].
Система аннотации Ensembl
Стандартная процедура аннотации Ensembl занимает до 4 месяцев и состоит из нескольких стадий[8]. Вначале проводится автоматическая маскировка повторов и предсказание положения генов. Затем на геном выравниваются известные кодирующие белки последовательности данного организма, полученные экспериментально. Если для участка генома такой последовательности нет, в ходе последующей стадии для этой цели используются последовательности близких видов. Помимо этого на геном наносится информация об известных видоспецифичных последовательностях кДНК и EST. Когда возможно, на геном также накладываются данные экспериментов по РНК-секвенированию[9].
Для геномов человека и мыши стандартный процесс аннотации дополняется аннотацией проекта HAVANA Шаблон:Wayback. Объединенная аннотация Ensembl/HAVANA составляет набор генов человека и мыши GENCODE Шаблон:Wayback[10].
В номенклатуре Ensembl гену может быть присвоено 3 статуса: known, novel, merged. Статус known указывает на то, что данный участок соотносится с известной последовательностью этого организма из публичных баз данных UniProtKB и NCBI RefSeq Шаблон:Архивировано. В случае, если есть совпадение только с последовательностью другого организма, гену присваивается статус novel. Статус merged указывает на полное совпадение аннотаций Ensembl и HAVANA[8].
Геномный браузер Ensembl
Первичная цель проекта Ensembl заключается в автоматическом анализе и аннотировании геномов позвоночных, а также предоставлении доступа к этим геномам. Геномный браузер Ensembl способен визуализировать имеющиеся в базе Ensembl геномы и их аннотации в различном масштабе, от целого кариотипа до конкретного участка последовательности генома в текстовом виде. Аннотированные элементы отображаются в виде полос (треков) относительно референсного генома. Визуализация треков может быть настроена пользователем под собственные нужды. Дополнительная информация по каждому элементу аннотации доступна во всплывающих окнах при наведении курсора на элемент. Пользователям доступна возможность загружать и визуализировать собственные данные по геномной аннотации. Сделать это можно либо используя сервер DAS (Distributed Annotation System), либо загрузив файл в поддерживаемом формате (BigBED, BigWig, VCF, BAM и другие)[11][12][13][14].
API и другие способы доступа
Для хранения информации Ensembl использует реляционные базы данных на MySQL. Для получения информации из баз Ensembl используется набор API (интерфейс программирования приложений), написанных на Perl. API позволяют не зависеть от изменений в структуре базы данных сторонним приложениям. API Ensembl используется в веб-интерфейсе проекта для представления данных, а также может быть загружен пользователем и применяться для написания скриптов для автоматизации получения данных из баз Ensembl. Информация по загрузке, установке и использованию API Ensembl содержится на сайте проекта Шаблон:Wayback[15].
API Ensembl подразделяется на секции по типам обрабатываемых данных: Ensembl Core API (для работы с генами, последовательностями и другими элементами автоматической аннотации), Ensembl-Compara API (для работы с данными по сравнительной геномике), Ensembl-Variation API (для работы с данными о однонуклеотидных полиморфизмах, соматических мутациях, структурных вариациях), Ensembl-Regulation API (для работы с данными по регуляции генома) и другие[16].
Для доступа к базе Ensembl с использованием клиента на другом языке программирования используется сервер Ensembl REST Шаблон:Wayback[17]. Для получения больших объемов данных может использоваться сервис BioMart Шаблон:Wayback. Кроме того для скачивания полных баз Ensembl на MySQL можно использовать FTP-сервер проекта Шаблон:Wayback.
Доступные инструменты
На сайте Ensembl доступен ряд инструментов для обработки данных как из базы Ensembl, так и загруженных пользователем[18]. Для поиска заданной последовательности по всем геномам Ensembl используются алгоритмы BLAT или BLAST Шаблон:Wayback. Присутствует инструмент для загрузки данных из базы Ensembl в видоизменённом формате (File Chameleon Шаблон:Wayback), а также для перевода формата данных между разными сборками геномов Шаблон:Wayback и релизами Ensembl Шаблон:Wayback.
Variant effect predictor
Ensembl Variant effect predictor Шаблон:Wayback (VEP) — это инструмент для анализа и аннотации геномных вариаций в кодирующих и некодирующих участках. VEP аннотирует геномные вариации, опираясь на широкую выборку данных базы Ensembl, включая транскрипты, регуляторные области, частоты ранее наблюдавшихся вариаций, клинические данные и предсказания биофизических последствий вариаций. Возможен анализ двух категорий вариаций: малые точно определенные вариации (инсерции, делеции, тандемные повторы, однонуклеотидные полиморфизмы) либо более крупные структурные вариации генома (изменения копийности генов, крупные инсерции или делеции). VEP доступен в виде сервиса на веб-сайте Ensembl, в виде отдельного Perl-скрипта, а также через Ensembl REST[19].
Партнёрские проекты
Ensembl Genomes
Изначально проект Ensembl специализировался на геномах позвоночных животных, однако увеличение количества информации о геномах других живых существ привело к появлению в 2009 году проекта Ensembl Genomes Шаблон:Wayback, использующего платформу, инструменты и систему аннотации Ensembl[20]. В рамках данного проекта было создано 5 подразделений:
- Ensembl Bacteria Шаблон:Wayback предоставляет доступ к более чем 40 тысячам аннотированных бактериальных геномов
- Ensembl Fungi Шаблон:Wayback содержит 569 геномов грибов
- Ensembl Plants Шаблон:Wayback содержит 44 генома растений
- Ensembl Protists Шаблон:Wayback содержит 150 геномов протистов
- Ensembl Metazoa Шаблон:Wayback содержит 65 геномов беспозвоночных животных
Сборка геномов Ensembl Genomes выходит одновременно для всех подразделений и независимо от основного проекта. Текущая версия сервиса 34, последнее обновление было совершено в декабре 2016 года[21].
Ensembl Pre!
Доступ к геномам, находящимся в процессе аннотации, осуществляется с помощью сервиса Ensembl Pre! Шаблон:Wayback. По состоянию на 2017 год доступна информация о геномах 17 организмов. Последнее обновление сервиса было проведено 19 января 2015 года[22].
Примечания
Ссылки
- ↑ Шаблон:Статья
- ↑ Шаблон:Статья
- ↑ Шаблон:Cite web
- ↑ Шаблон:Cite web
- ↑ Шаблон:Cite web
- ↑ Шаблон:Статья
- ↑ Шаблон:Статья
- ↑ 8,0 8,1 Шаблон:Cite web
- ↑ Шаблон:Статья
- ↑ Шаблон:Cite web
- ↑ Шаблон:Статья
- ↑ Шаблон:Статья
- ↑ Шаблон:Статья
- ↑ Шаблон:Статья
- ↑ Шаблон:Статья
- ↑ Шаблон:Cite web
- ↑ Шаблон:Статья
- ↑ Шаблон:Cite web
- ↑ Шаблон:Статья
- ↑ Шаблон:Статья
- ↑ Шаблон:Cite web
- ↑ Шаблон:Cite web