Русская Википедия:FASTA
Шаблон:Файловый формат FASTA — текстовый формат для нуклеотидных или полипептидных последовательностей, в котором нуклеотиды или аминокислоты обозначаются при помощи однобуквенных кодовШаблон:Переход. Из-за своей простоты и практичности в настоящее время используется большинством программ работы с биологическими последовательностямиШаблон:Переход. Файлы данного формата могут содержать названия последовательностей, их идентификаторыШаблон:Переход в базах данных и комментарии. В зависимости от природы содержащихся в нем биологических последовательностей файл формата FASTA может иметь различные расширенияШаблон:Переход.
История и распространение
Формат придуман Шаблон:Iw и Шаблон:Iw[1][2] в 1985 году для Шаблон:Iw, предназначенной для поиска в больших базах последовательностей, гомологичных данной. Первичное описание формата было произведено ими в документации этой программы, а сейчас его описание является частью документации программы BLAST[3].
Простота FASTA-формата позволяет легко осуществлять различные действия с последовательностями при помощи инструментов редактирования текста и скриптовых языков программирования, таких как Python[4], Ruby[5], Perl[6], Java[7].
Форматы FASTA и FASTQ (Sanger Institute) наиболее популярны для представления данных о биологических последовательностях[8]. Существуют также другие форматы, в том числе используемые в банках данных GenBank[9], EMBL[10] и UniProt[11].
Формат
Последовательности в формате FASTA начинаются с однострочного описания, за которым следуют строки, содержащие собственно последовательность. Описание отмечается символом «больше» («>») в первой колонке. Слово за этим символом и до первого пробела является идентификатором последовательностиШаблон:Переход, далее следует опциональное описание. Следующие несколько строк могут иметь первым символом точку с запятой («;»), и тогда они будут восприниматься как комментарии. На данный момент многие базы данных и программы не распознают комментарии, поэтому они мало распространены. Дальше следуют строки, содержащие собственно биологические последовательности. Обычно строки в формате FASTA ограничены длиной от 80 до 120 символов (по историческим причинам), но современные программы распознают последовательности, записанные полностью в одну строку. В один файл могут быть записаны несколько последовательностей, таким образом получается мульти-FASTA файл, однако перед каждой последовательностью должен стоять свой идентификатор[12]. Пример одной последовательности в формате FASTA:[13]
>gi|31563518|ref|NP_852610.1| microtubule-associated proteins 1A/1B light chain 3A isoform b [Homo sapiens] MKMRFFSSPCGKAAVDPADRCKEVQQIRDQHPSKIPVIIERYKGEKQLPVLDKTKFLVPDHVNMSELVKI IRRRLQLNPTQAFFLLVNQHSMVSVSTPIADIYEQEKDEDGFLYMVYASQETFGFIRENE
Идентификатором этой последовательности является gi|31563518|ref|NP_852610.1|.
Последовательности записываются в виде однобуквенных кодов нуклеотидов или аминокислот, совпадающих с их стандартными однобуквенными обозначениями, принятыми Шаблон:Нп5/ИЮПАК, в порядке от 5'- к 3'-концу для нуклеиновых кислот и от N- к С-концу для аминокислот, в них допускаются пробелы, символы могут быть как в верхнем, так и в нижнем регистре. Числа, служебные символы конца строки и табуляции игнорируются программами работы с последовательностями[3].
Нуклеиновые кислоты обозначаются[14]:
| Код | Значение | Мнемоника |
|---|---|---|
| A | A | Adenine — Аденин |
| C | C | Cytosine — Цитозин |
| G | G | Guanine — Гуанин |
| T | T | Thymine — Тимин (5-метилурацил) |
| U | U | Uracil — Урацил |
| R | A, G | puRine — Пурины |
| Y | C, T, U | pYrimidines — Пиримидины |
| K | G, T, U | Кетоновые основания |
| M | A, C | Основания с аминогруппами (aMino) |
| S | C, G | Сильное (Strong) взаимодействие в комплементарной паре (три водородные связи) |
| W | A, T, U | Слабое (Weak) взаимодействие в комплементарной паре (две водородные связи) |
| B | не A (то есть C, G, T или U) | B идёт за A |
| D | не C (то есть A, G, T или U) | D идёт за C |
| H | не G (A, C, T или U) | H идёт за G |
| V | не T и не U (A, C или G) | V идёт за U |
| N | A C G T U | Любой (aNy) нуклеотид |
Для аминокислот есть 22 обычных кода (канонические аминокислоты, селеноцистеин и пирролизин), 4 специальных (обозначения множеств аминокислот) и * для обозначения стоп-кодона (в формальных трансляциях генов)[15][16].
| Код аминокислоты | Значение |
|---|---|
| A | Аланин |
| B | Аспарагиновая кислота (D) или Аспарагин (N) |
| C | Цистеин |
| D | Аспарагиновая кислота |
| E | Глутаминовая кислота |
| F | Фенилаланин |
| G | Глицин |
| H | Гистидин |
| I | Изолейцин |
| J | Лейцин (L) или Изолейцин (I) |
| K | Лизин |
| L | Лейцин |
| M | Метионин |
| N | Аспарагин |
| O | Пирролизин |
| P | Пролин |
| Q | Глутамин |
| R | Аргинин |
| S | Серин |
| T | Треонин |
| U | Селеноцистеин |
| V | Валин |
| W | Триптофан |
| Y | Тирозин |
| Z | Глутаминовая кислота (E) или Глутамин (Q) |
| X | Любая аминокислота |
| * | Терминация трансляции |
Fasta-формат используется также для файлов, содержащих выравнивания биологических последовательностей. В этом случае в каждую последовательность в места, соответствующие позициям, не представленным в данной последовательности, вставляются символы «гэпов» (обычно это дефис или точка), в результате все последовательности в файле должны иметь одинаковую длину[17].
Идентификаторы последовательностей
Центр NCBI определил правила создания уникальных идентификаторов последовательностей (SeqID). В строку описания допускается вносить следующие варианты идентификаторов[18]:
| Тип | Формат(ы) | Пример(ы) |
|---|---|---|
| Локальный (не отсылает к внешним базам данных) | lcl|целое число
|
lcl|123
|
| GenInfo идентификатор последовательности остова | bbs|целое число
|
bbs|123
|
| GenInfo тип молекулы остова | bbm|целое число
|
bbm|123
|
| GenInfo ID импорта | gim|целое число
|
gim|123
|
| GenBank | gb|код доступа|локус
|
gb|M73307|AGMA13GT
|
| EMBL | emb|код доступа|локус
|
emb|CAM43271.1|
|
| PIR | pir|код доступа|название
|
pir||G36364
|
| SWISS-PROT | sp|код доступа|название
|
sp|P01013|OVAX_CHICK
|
| Патент | pat|страна|патент|номер последовательности
|
pat|US|RE33188|1
|
| Патентная заявка | pgp|страна|номер заявки|номер последовательности
|
pgp|EP|0238993|7
|
| RefSeq | ref|код доступа|название
|
ref|NM_010450.1|
|
| Ссылка на базу данных не из этого списка | gnl|база данных|целое число
|
gnl|taxon|9606
|
| Интегрированная база данных GenInfo | gi|целое число
|
gi|21434723
|
| DDBJ | dbj|код доступа|локус
|
dbj|BAC85684.1|
|
| PRF | prf|код доступа|название
|
prf||0806162C
|
| PDB | pdb|запись|цепь
|
pdb|1I4L|D
|
| GenBank с аннотациями от третьих лиц | tpg|код доступа|название
|
tpg|BK003456|
|
| EMBL с аннотациями от третьих лиц | tpe|код доступа|название
|
tpe|BN000123|
|
| DDBJ с аннотациями от третьих лиц | tpd|код доступа|название
|
tpd|FAA00017|
|
| TrEMBL | tr|код доступа|название
|
tr|Q90RT2|Q90RT2_9HIV1
|
Вертикальные чёрточки («|») в списке сверху являются не разделителями, а частью формата. Можно ставить идентификаторы подряд, разделяя их чертами. В случае, если какое-то из полей идентификатора оставлено пустым, для обеспечения совместимости с программами необходимо ставить две черты подряд[19].
Расширения файлов
Файлы формата fasta могут иметь различное расширение в зависимости от природы представленных в них биологических данных[20][21].
| Расширение | Значение | Примечания |
|---|---|---|
| fasta | Обычные данные fasta | Любые данные fasta. Иногда также .fa, .seq, .fsa, .fas |
| fna | аббр. от «fasta nucleic acid» | Для описания нуклеотидных последовательностей. |
| ffn | Кодирующие участки нуклеотидов | Содержат кодирующие участки геномов. |
| faa | аббр. от «fasta amino acid» | Содержат аминокислотные последовательности. Используется расширение mpfa при хранении нескольких белков в одном файле. |
| frn | Некодирующая РНК в формате FASTA | Содержат некодирующие РНК в алфавите ДНК, например тРНК, рРНК |
| afa, mfa | Выравнивание в формате FASTA (a от «alignment», m от «multiple») | Содержат выравнивания биологических (нуклеотидных или аминокислотных) последовательностей |
Примечания
Ссылки
- Конвертер файлов биологических последовательностейШаблон:Ref-lang
- Инструкция по созданию файла FASTA-формата вручнуюШаблон:Ref-en
Шаблон:ВС Шаблон:Добротная статья
- ↑ Ошибка цитирования Неверный тег
<ref>; для сносокoriginне указан текст - ↑ Шаблон:Cite doi
- ↑ 3,0 3,1 Шаблон:Cite web
- ↑ Шаблон:Статья
- ↑ Шаблон:Статья
- ↑ Шаблон:Статья
- ↑ Шаблон:Статья
- ↑ Шаблон:Cite web
- ↑ Шаблон:Cite web
- ↑ Шаблон:Cite web
- ↑ Шаблон:Cite web
- ↑ Шаблон:Cite web
- ↑ Шаблон:Статья
- ↑ : Шаблон:Cite web
- ↑ Шаблон:Cite web
- ↑ Шаблон:Cite doi
- ↑ Шаблон:Cite web
- ↑ Шаблон:Cite web
- ↑ Шаблон:Cite doi
- ↑ Шаблон:Книга
- ↑ Шаблон:Cite web