Русская Википедия:GenBank
Шаблон:Infobox biodatabase GenBank — база данных, находящаяся в открытом доступе, содержащая все аннотированные последовательности ДНК и РНК, а также последовательности закодированных в них белков. GenBank поддерживается Национальным центром биотехнологической информации США (NCBI), входящего в состав Национальных Институтов Здоровья в США, и доступен на бесплатной основе исследователям всего мира. GenBank получает и объединяет данные, полученные в разных лабораториях, для более чем Шаблон:Число различных организмов.
GenBank — архивная база данных, то есть ответственность за содержимое каждой записи несут создатели этой записи, которыми, как правило, являются экспериментаторы, определившие данную последовательность. GenBank вместе с банками EMBL и DDBJ входит в консорциум INSDC (http://insdc.org/), осуществляющий регулярный обмен данными между этими тремя архивами аннотированных нуклеотидных последовательностей.
Релиз GenBank происходит каждые два месяца и доступен с сайта по протоколу FTP. Заметки о выпуске для текущей версии GenBank предоставляют подробную информацию о выпуске и уведомлениях о предстоящих изменениях в GenBank. Также доступны примечания к выпуску предыдущих версий GenBank.
История создания
В марте 1979 года в Университете Рокфеллера в Нью-Йорке состоялась встреча тридцати молекулярных биологов и специалистов по компьютерным наукам. На ней была согласована позиция о необходимости создания общенациональной компьютеризованной базы данных. Это было обусловлено стремительными темпами роста количества известных последовательностей ДНК, а также перспективами получения новых биологических знаний путём их анализа и сравнения. До того времени существовало несколько отдельных коллекций последовательностей, но ни одна из них не была полной[1].Три года понадобилось Национальному Институту Здоровья (NIH), чтобы разработать схему финансирования проекта. За это время EMBL сделала общедоступной свою собственную базу данных последовательностей. Такая досадная для NIH задержка явилась следствием не только медленной работы бюрократической системы, но и неопределённостью среди учёных в отношении роли биологических коллекций во времена преобладания экспериментальных методов познания живого. Под давлением нескольких учёных-экспериментаторов NIH всё же начал поиск исполнителей проекта. В конкурсе на создание базы данных участвовали две группы: команда из Национального Фонда Биомедицинских Исследований (NBRF), возглавляемая Маргарет Дайхофф, и группа исследователей под руководством Уолтера Гоада из Лос-Аламосской национальной лаборатории (LANL) в сотрудничестве с частной компанией «Шаблон:Нп5»[1].
Дайхофф создала одну из первых баз данных биологических последовательностей, собирая аминокислотные последовательности белков с 1960-х годов. В серии томов «Атласа белковых последовательностей и структур» опубликованных начиная с 1965 года, Дайхофф была представлена самая крупная в мире коллекция последовательностей белков и нуклеиновых кислот, новейших методов их анализа и вытекающих из них эволюционных соображений[2].Данный атлас стал чрезвычайно популярен как инструмент в работах молекулярных и эволюционных биологов. Дайхофф рассчитывала, что исследователи будут делиться с ней новыми последовательности напрямую, до того, как они будут опубликованы. Однако данная инициатива не нашла должного отклика среди экспериментальных биологов, так как при занесении в Атлас не устанавливались ни авторство, ни приоритет открытия. Дайхофф и её команда были вынуждены продолжить заниматься ручным анализом публикуемой литературы[1].
Другой претендент на заключение контракта с NIH – группа из Лос-Аламоса, где со времён Манхэттенского проекта велись ограниченные биомедицинские исследования. Узнав о решении, принятом в Университете Рокфеллера, Уолтер Гоад был убеждён, что Лос-Аламос является «естественным местом для центра по анализу последовательностей ДНК», главным образом, из-за «уникальных компьютерных мощностей», которыми обладала располагающаяся там национальная лаборатория[3]. Гоад также начал собирать последовательности нуклеиновых кислот, в основном, из других коллекций, принадлежащих Ричарду Грантому во Франции, Курту Стёберу в Германии, Дугласу Брутлагу и Элвину Кабату в США[1].
Предложения NBRF (Дайхофф) и LANL-BBN (Гоад) по созданию централизованной базы данных были очень похожи, однако они содержали ключевые различия, касающиеся собственности, конфиденциальности и научного приоритета. NBRF предложила собирать последовательности, анализируя опубликованную литературу и приглашая экспериментаторов предоставлять их данные. Такой подход подразумевал такое же отношение к последовательностям, как отношение натуралистов к экземплярам – находящимся в окружающей природе объектам, которые могут быть собраны и использованы. LANL-BBN, напротив, предлагали просить издательства, чтобы включение последовательностей в базу данных было обязательным условием для публикации статьи в журнале. Такая система соответствовала системе мотивации в экспериментальных науках, в которой результаты исследований считаются личным знанием до того, как они будут опубликованы и им будет присвоено авторство. Публикация таким образом является стимулом к тому, чтобы сделать знания общедоступными[1].
В 1980 году Верховный суд США объявил, что «что-либо под солнцем, созданное человеком», включая генетически модифицированные организмы, может быть запатентовано[4]. Данное заявление поставило перед NIH вопрос о том, кто мог бы стать собственником информации в будущей базе данных. Гоад подчеркнул, что он «не собирается отстаивать какие-либо права собственности на какие бы то ни было данные», и отметил, что Дайхофф и ее команда «искали доходы от продаж своей базы данных и препятствовали их перераспределению», не упомянув, что доходы шли только на покрытие расходов, а не для получения прибыли[5].
LANL-BBN имели возможность в дальнейшем повысить открытость своей базы данных, предложив распространять ее через компьютерную сеть ARPANET, находящуюся под управлением Министерством обороны, в то время как NBRF мог предложить только ограниченный онлайн-доступ через телефонные модемы. 30 июня 1982 года NIH заключила контракт с LANL-BBN на создание общедоступной бесплатной базы данных последовательностей нуклеиновых кислот, которая вскоре стала называться GenBank.
Успех GenBank в сборе всех опубликованных последовательностей был обусловлен двумя ключевыми факторами. Во-первых, было организовано плотное сотрудничество с базой данных EMBL, созданной несколькими месяцами ранее в Гейдельберге, и с DDBJ в 1986 году. Каждая база данных была ответственна за отслеживание публикаций в определённых журналах[1].
Во-вторых, базы данных ДНК всё сильнее отставали от растущего взрывными темпами количества известных последовательностей. Решением проблемы стала договорённость с издательствами об электронном включении последовательностей в базу данных как обязательном условии для публикации в журнале.
С тех пор GenBank рос и расширялся, участвуя в таких проектах, как «Геном человека» и проектах по баркодированию ДНК. GenBank стала примером проекта, основанного на принципах «свободного контента», которые приобретают огромное конкурентное преимущество в современном мире[1].
В середине 1980-х биоинформатическая компания Intelligenetics в Стэнфордском Университете управляла проектом GenBank совместно с LANL. Будучи одним из первых общественных биоинформатических проектов в Интернете, в рамках проекта были открыты первые форумы и средства для обмена научными знаниями: BIOSCI/Bionet.
В период с 1989-1992 GenBank был перемещен в новообразованный Национальный Центр Биотехнологической Информации (NCBI)[6].
Статистика GenBank
В третьем выпуске базы данных, вышедшем в декабре 1982 года содержалось 606 нуклеотидных последовательностей, в пересчёте на основания - 680338. Уже к ноябрю 1983 года количество последовательностей увеличилось более чем в 4 раза - до 2427. До 2000 года рост базы данных имел экспоненциальный характер. К 2007 году количество данных удваивалось каждые 18 месяцев.
С апреля 2002 года ведётся статистика по разделу WGS. Скорость его роста опережает основное отделение GenBank. После уменьшения темпов роста в 2010 году, WGS вновь демонстрирует ускоренный рост[7].
На февраль 2013 года GenBank содержал информацию о более чем 228 млрд. пар оснований и почти 200 млн. последовательностях (из более чем 100 000 живых организмов)[8].
В генном банке содержатся также дополнительные наборы данных, механически добавленных, на основе основной коллекции данных секвенирования.
По информации, содержащейся в таблице, можно определить масштаб данных, накопленных в GenBank и сравнить скорости, с которыми в базе данных появлялись новые записи в первые годы после основания базы и в настоящее время[7].
Выпуск | Дата | Оснований | Последовательностей |
---|---|---|---|
3 | декабрь 1982 | 680 338
|
606
|
66 | декабрь 1990 | 51 306 092
|
41 057
|
121 | декабрь 2000 | 11 101 066 288
|
10 106 023
|
181 | декабрь 2010 | 122 082 812 719
|
129 902 276
|
218 | февраль 2017 | 228 719 437 638
|
199 341 377
|
Аннотация записи GenBank
Аннотированный образец GenBank в формате GenBank Flat File имеет следующие разделы[9]:
Название поля | Аннотация поля |
---|---|
LOCUS |
Поле LOCUS содержит следующие элементы данных:
Имя локуса (Locus Name) Единственное правило при назначении имени локуса - уникальность. Длина последовательности (Sequence Length) Количество нуклеотидных пар оснований (или аминокислотных остатков, в случае белковой последовательности) в записи последовательности. Поле поиска Entrez: длина последовательности [SLEN] Тип молекулы (Molecule Type) Каждая запись GenBank должна содержать данные о последовательности одного типа молекулы: геномная ДНК, геномная РНК, незрелая (несплайсированная) РНК, матричная РНК (кДНК), рибосомная РНК, транспортная РНК, малая ядерная РНК и другие. Поле поиска Entrez: тип молекулы [PROP]. Пример biomol_genomic, biomol_mRNA и т. д. Раздел GenBank (GenBank Division) Записи GenBank относятся к одному из следующих разделов[10]: Таксономические разделы:
Высокопроизводительное секвенирование:
Проекты:
Поскольку разделы не отражают текущую таксономию NCBI (последовательность, реально относящаяся к конкретному организму, может входить в "техническую" группу из-за метода её получения), для получения всех последовательностей из конкретного организма следует использовать NCBI Taxonomy Browser. Поле поиска Entrez: раздел [PROP]. Пример: gbdiv_pri, gbdiv_est и т. д. Дата изменения (Modification Date) Дата последней модификации записи. Поле поиска Entrez: дата [MDAT]. Пример 1999/07/25, 1999/07/25:1999/07/31 (обязателен формат гггг/мм/дд) |
DEFINITION |
Краткое описание последовательности: организм, имя гена/белка, описание функций последовательности (если последовательность является некодирующей).
Поле поиска Entrez: описание [TITL]. |
ACCESSION |
Уникальный и неизменный идентификатор записи последовательности (accession number англ.). Идентификатор представляет собой комбинацию букв и цифр. Обычно это одна буква, за которой следуют пять цифр (например, U12345) или две буквы, а затем шесть цифр (например, AF123456). Некоторые идентификаторы могут быть длиннее, в зависимости от типа записи последовательности.
Поле поиска Entrez: идентификатор [ACCN]. |
VERSION |
Идентификационный номер конкретной нуклеотидной последовательности в базе данных GenBank, использует формат "accession.version", реализованный GenBank / EMBL / DDBJ в феврале 1999 года. Увеличивается при любом изменении данных последовательности, например, с U12345.10 на U12345.11. Параллельно изменения получают новый номер в системе идентификаторов GI. Историю изменений последовательности можно найти в разделе GenBank Sequence Revision History и Sequence IDs.
Поле поиска Entrez: используйте значение по умолчанию «All Fields». |
GI |
Идентификационный номер «GenInfo Identifier» для нуклеотидной или транслированной с него белковой последовательности. Если последовательность изменяется каким-либо образом, будет назначен новый номер GI.
Поле поиска Entrez: используйте значение по умолчанию «All Fields» |
KEYWORDS |
Ключевые слово или фраза, описывающие последовательность. В отсутствие ключевых слов содержит только точку.
Данное поле присутствует в записях последовательностей в основном по историческим причинам и не основано на контролируемой лексике. Используется в основном в старых записях или для особых типов последовательностей, таких как EST, STS, GSS, HTG и т. д., поэтому лучше не использовать для поиска. Поле поиска Entrez: ключевое слово [KYWD] |
SOURCE |
Организм-источник последовательности. Формат записи свободный, может сопровождаться типом молекулы.
Подполе Organism представляет формальное научное название исходного организма (род и вид, где это уместно) и его таксономию, основанную на базе данных таксономии NCBI. Поле поиска Entrez: организм [ORGN]. Пример: Saccharomyces cerevisiae |
REFERENCE |
Ссылки на публикации (журнальную статью, главу книги, книгу, диссертацию / монографию, материалы собрания, патент и т.п.) авторов записи с обсуждением указанных в записи данных. Ссылки автоматически сортируются по дате публикации, начиная с самых старых. Статус "unpublished" или "in press" означает отсутствия публикаций. Последняя статья обычно содержит информацию о непосредственном подателе последовательности, поэтому она называется «submitter block» и вместо названия статьи присутствуют слова «Direct Submission».
Поле содержит несколько элементов: Авторы (authors) Список авторов в порядке их появления в цитируемой статье. Поле поиска Entrez: автор [AUTH] (в формате Фамилия AB без точек после инициалов, инициалы можно опустить). Заглавие (title) Название опубликованной или предварительное название неопубликованной работы. Поле поиска Entrez: название [WORD]. Журнал (jounal) MEDLINE аббревиатура названия журнала. (Полное правописание может быть получено из базы данных Entrez Journals) Поле поиска Entrez: имя журнала [JOUR] (можно вводить как полное правописание журнала, так и аббревиатуру MEDLINE). PUBMED Идентификатор PubMed (PMID). Ссылки, включающие идентификаторы PubMed, на соответствующую запись PubMed. В свою очередь, записи PubMed, содержащие идентификаторы последовательностей в поле SI (вторичный идентификатор источника), ссылаются на записи последовательностей. Поле поиска Entrez: Невозможно выполнить поиск по PubMed ID, однако можно выполнить поиск в базе данных PubMed. |
FEATURES |
Информация о местоположении и функции области, указанной в последовательности: ген, его продукт (белок), промотор, кодирующая последовательность (CDS), альтернативно сплайсированная мРНК и другие. Полный список функциональных последовательностей доступен в следующих местах:
Область может быть представлена единичным интервалом нуклеотидов, смежным интервалом нуклеотидов, объединением интервалов последовательности и другими представлениями. Область, как правило, задается двумя координатами n..m. Символ «<», перед координатами говорит о расположении на 5'-конце (например, CDS <1..206), символ «>» - на 3'-конце (например, CDS 435..915>), пометка "complement" - о расположении на комплементарной цепи. Поле поиска Entrez: функциональный ключ [FKEY]. Пример, promoter Элементы поля: source Обязательное поле, содержащее длину последовательности, научное название организма-источника и Taxon ID (идентификационный номер таксона в базе NCBI Taxonomy Database ). Может также включать дополнительную информацию, такую как локализация на карте генома (например, номер хромосомы), штамм, клон, тип ткани и т. д. Поле поиска Entrez: используйте запрос длина последовательности [SLEN] для поиска по длине, организм [ORGN] для поиска по названию организма, дополнительная информация [ALL] для поиска других элементов, таких как штамм, клон, тип ткани. CDS Кодирующая белок последовательность нуклеотидов, включая старт- и стоп-кодоны. Содержит также транслированную с этой области аминокислотную последовательность. Спецификаторы "/evidence=experimental" и "/evidence=not_experimental" указывают на наличие или отсутствие экспериментального подтверждения существования белка. Для мРНК авторами записи могут быть описаны 5'-и 3'- нетранслируемые области (5'UTR и 3'UTR) и кодирующие последовательности (CDS, экзоны). Поле поиска Entrez: функциональный ключ [FKEY] protein_id, GI Идентификационный номер белковой последовательности, соответствующий идентификатору нуклеотидной последовательности. Идентификаторы белков состоят из трех букв, за которыми следуют пять цифр, точка и номер версии. Если произойдет изменение данных последовательности (даже одной аминокислоты), номер версии будет увеличен (например, AAA98665.1 изменится на AAA98665.2). Формат идентификации идентификационных номеров белковых последовательностей accession.version был реализован GenBank / EMBL / DDBJ в феврале 1999 года и работает параллельно с цифровой системой GI (см. выше). Поле поиска Entrez: используйте значение по умолчанию «All Fields» ген Область биологического интереса, имеющая имя и идентифицированная как ген. Поле поиска Entrez: функциональный ключ [FKEY] |
ORIGIN |
Сама последовательность, доступна для скачивания в различных форматах. Поле может быть пустым, может отображаться как «Unreported», или давать локальный указатель на начало последовательности, как правило, с участием экспериментально определенного сайта рестрикции или генетического локуса (если имеется). |
Правила внесения данных
Заявки на внесение последовательности в одну из трёх баз (GenBank, ENA или DDBJ) отправляются либо отдельными авторами, либо центрами секвенирования в основном в электронной форме через программы BankIt или Sequin. Синхронизация данных между базами происходит ежедневно. Заявки тщательно проверяются на наличие фрагментов используемых векторов (используется система VecScreen), правильной трансляции кодирующей области, правильной таксономии и правильных библиографических ссылок. Черновик записи в GenBank отправляется обратно автору для проверки и последних правок перед публикацией в базе, которая может быть отложена до указанного момента по просьбе автора. После публикации (обычно в течение 2 дней после подачи заявки) запись получает идентификатор, по которому может быть извлечена посредством Entrez или по FTP. В среднем, за день идентификаторы получают приблизительно 3500 последовательностей. Наличие последовательности в публичном доступе GenBank является обязательным требованием к публикации во многих журналах[11].
GenBank предлагает специальные пакеты программ, облегчающие подачу заявок[11]:
- BankIt – веб-интерфейс NCBI, через который принимается около трети заявок. Предоставляет заявителю специальную форму, заполнение которой позволяет правильно описать последовательность без необходимости изучать правила форматирования и нормативную лексику.
- Sequin – автономный программный инструмент, разработанный NCBI для отправки и обновления записей в базе данных последовательности GenBank. Может обрабатывать записи различной степени сложности,однако один файл Sequin должен содержать менее 10000 последовательностей для максимальной производительности. Более крупные записи должны быть сделаны с помощью tbl2asn.
- tbl2asn – инструмент командной строки для преобразования таблицы с аннотацией, полученной при помощи аннотационного пайплайна, в запись, подходящую для предоставления в GenBank.
- Submission Portal – веб-сервис, предоставляющий интерфейс, который принимает данные WGS в формате FASTA с использованием набора онлайн-форм.
- BarSTool – онлайн-инструмент, позволяющий подавать заявки о включении в базу последовательностей для баркодинга.
Разделы GenBank
В настоящий момент база GenBank, помимо последовательностей отдельных генов, содержит много данных, полученных с помощью современных методов секвенирования ДНК и автоматического аннотирования последовательностей. Существует несколько разделов GenBank, посвящённых данным высокопроизводительного секвенирования[10].
- Genomes – специальный раздел для хранения полных геномов. Созданы руководства по аннотации полных геномов прокариот и эукариот.
- WGS (Whole genome shoutgun) – проекты по сборке неполных геномов, хромосом прокариот или эукариот, главным образом, секвенированных методом дробовика. В GenBank аннотация проектов WGS необязательна, однако NCBI располагает специальным пайплайном для аннотации прокариотических геномов. Существует список доступных WGS-проектов.
- TPA (Third Party Annotation) – представляет из себя базу данных экспериментальных или выведенных из уже имеющихся данных результатов, аннотация которых не произведена автором из первичных данных, а определена по косвенным. Записи TPA делятся, соответственно, на две категории:
- experimental – аннотация последовательностей подтверждена экспериментальным доказательством в «мокрой» лаборатории.
- inferential – аннотация последовательностей сделана путём умозаключения из доступной информации. При этом непосредственно молекула нуклеиновой кислоты или её продукт(ы) не являлись предметами прямых экспериментов.
- TSA (Transcriptome Shotgun Assembly sequences) – последовательности транскриптомов, полученные путём секвенирования методом дробовика. Данный раздел содержит данные, собранные из последовательностей, размещённых в NCBI Trace Archieve, Sequence Read Archive и разделe GenBank EST. Отдел TSA представляет собой один из самых быстрорастущих разделов GenBank.
- ENV (Environmental sample sequences) – последовательности образцов из окружающей среды, конкретный источник которых неизвестен. Многие из них получены путём анализа метагеномов. Подаздел «Метагеномы» включает в себя группы последовательностей, полученных при секвенировании ДНК, взятой из какого-либо места окружающей среды с определёнными условиями. Такой подход позволяет найти организмы, лабораторная культура которых не получена. Также он исключительно важен для понимания генетического разнообразия, структуры популяций, экологической роли таких организмов. ENV последовательности, как правило, предоставлены данными секвенирования полного метагенома методом дробовика или исследований последовательностей на основе таргетных генов, таких как 16S рРНК. NCBI продолжает поддерживать поиск BLAST метагеномных последовательностей ENV, но последовательности в рамках WGS проектов теперь являются частью базы данных WGS BLAST.
- EST (Expressed sequence tags) – основной источник данных для исследований, посвящённым изучению экспрессии генов и аннотированию последовательностей. Раздел содержит более 40 млрд. пар оснований – является крупнейшим по этому параметру после WGS.
- HTG (High-throughput genomic) – содержит масштабные геномные записи незавершённых, которые в перспективе будут окончены. Записям в данном разделе присваивается номер фазы, которой соответствует их текущее качество. При достижении третьей фазы – полного завершения – запись переносится в раздел соответствующего организма.
- GSS – содержит записи чернового качества, которые, могут включать в себя 5’ и 3’ нетранслируемые области (UTR), части кодирующих областей и интроны. По мере обретения высокого качества записи перемещаются в раздел соответствующего организма.
- CON (Contig records for assemblies of smaller records) – содержит записи, представляющие собой очень длинные последовательности, такие как эукариотические хромосомы, чьи полные последовательности не известны, но которые включают несколько контигов с неохарактеризованными гэпами между ними. CON скорее содержит не список последовательностей сам по себе, а инструкцию по сборке, включающую несколько последовательностей-компонентов.
Примечания
См. также
Ссылки
- Русская Википедия
- Страницы с неработающими файловыми ссылками
- Биоинформатика
- Базы данных в Интернете
- Геномика
- Сайты по алфавиту
- Научные сайты
- Сайты, появившиеся в 1982 году
- Сайты США
- Страницы, где используется шаблон "Навигационная таблица/Телепорт"
- Страницы с телепортом
- Википедия
- Статья из Википедии
- Статья из Русской Википедии