Русская Википедия:GFF (формат файла)

GFF (Шаблон:Lang-en) — формат файлов, используемый для хранения разметки генов и других элементов последовательностей ДНК, РНК и белков. Используемое для такого типа файлов расширение обозначается как .GFF. Формат был предложен исследователями из Института Сенгера, его версия GFF2 (старейшая из ныне используемых) вышла в 1998 годуШаблон:Sfn^[1].

Общие сведения

Появление технологий секвенирования нового поколения сделало задачу расшифровки генома более простой и доступной. Существуют программы, позволяющие идентифицировать в полученной нуклеотидной последовательности того или иного организма такие функциональные элементы, как гены, экзоны, интроны, стартовые и стоп-кодоны, мотивы, сайты сплайсинга и т. д.^[2]^[3]. Формат GFF часто используется для хранения таких элементов геномаШаблон:Sfn.

Файл в формате GFF — это текстовый файл, где для каждого функционального элемента генома отводится одна строка. Каждая строка содержит 9 полей, разделенных знаком табуляции Шаблон:Sfn. Такая структура файла позволяет легко и быстро извлекать необходимые данные, а также обрабатывать их такими средствами, как bash (например, команды grep, sort и др.), простыми скриптами awk и perl^[4].

Ниже представлен пример файла в формате GFF^[5]:

IV     curated  mRNA   5506800 5508917 . + .   Transcript B0273.1; Note "Zn-Finger"
IV     curated  5'UTR  5506800 5508999 . + .   Transcript B0273.1
IV     curated  exon   5506900 5506996 . + .   Transcript B0273.1
IV     curated  exon   5506026 5506382 . + .   Transcript B0273.1
IV     curated  exon   5506558 5506660 . + .   Transcript B0273.1
IV     curated  exon   5506738 5506852 . + .   Transcript B0273.1
IV     curated  3'UTR  5506852 5508917 . + .   Transcript B0273.1

В этом примере хранятся данные только об одной мРНК, которая охватывает весь представленный диапазон. Запись включает участки типо 5'UTR, 3'UTR и exon. Все они сгруппированы в транскрипт под названием B0273.1. Также мРНК имеет дополнительную заметку.

Примеры веб-сервисов и баз данных, которые могут выдавать файлы в формате GFF: UniProt, Ensembl Genomes, mirBAse.

Версии GFF

В настоящий момент используются три версии формата файлов GFF^[6]:

GFF Version 2 (GFF2);
Gene Transfer Format (GTF);
GFF Version 3 (GFF3).

GFF2 имеет ряд недостатков. Наиболее существенным является то, что он может представлять только двухуровневые иерархии элементов, и, соответственно, не может справиться с трёхуровневой иерархией типа ген → транскрипт → экзон. Сейчас он объявлен устаревшим^[5]. Формат GTF является уточнением второй версии GFF2, и иногда называется как GFF2.5^[7].
В данный момент, наиболее современной является версия GFF3. В отличие от предыдущих версий^[4], GFF3:

Обеспечивает возможность поддержки многих уровней иерархии элементов
Разграничивает имя/идентификатор элемента и предположение о его принадлежности к той или иной категории
Ограничивает поле «type» (см. таблицу) одним словарем допустимых типов элементов
Позволяет одиночному элементу (например, экзон) принадлежать сразу к нескольким группам

Помимо этого, версии формата GFF отличаются девятым полем: см. раздел «Структура формата GFF».

Структура формата GFF

Каждая строка в файле формата GFF содержит 9 колонок, разделенных знаком табуляцииШаблон:Sfn. Каждая колонка называется полем и имеет своё назначение^[8]. Список названий полей и их содержание в разных версиях формата приведены ниже.

Номер поля	Название поля	Описание
1	seqid	Название (идентификатор) последовательности, где находится данный элемент. Идентификатор может содержать любые символы из набора Шаблон:Скобка.
2	source	Источник определения элемента, в качестве которого может выступать программа, или база данных, или экспериментальная проверка, или организация (например, TAIR _англ.). Фактически, уточняя собой элемент, поле «source» расширяет её онтологию.
3	type	Тип элемента. Является либо термином Sequence Ontology, например, «CDS» (белок-кодирующая последовательность), «stop_codon» (стоп-кодон) «exon» (экзон), либо номером доступа SO с синтаксисом вида SO:000000. В любом случае, это либо сам элемент (sequence_feature, SO:0000110), либо его потомок (is_a child of)
4 и 5	start и end	Начальные и конечные положительные целочисленные координаты элемента в последовательности, нумерация которых начинается с единицы. Начальная координата всегда меньше или равна конечной. Для элементов, пересекающих ориджин (например, в геномах большинства бактерий, плазмид и вирусов) это требование выполняется путем добавления к конечной координате длины всего генома. Для элементов с нулевой длиной, (например, сайты вставки), начало равняется концу, а подразумеваемый сайт находится справа от указанной координаты в направлении конца.
6	score	Вес элемента, число с плавающей запятой. Смысл веса строго не определён, однако настоятельно рекомендуется использовать E-value для элементов, определённых по сходству последовательностей, и P-value для элементов, предсказанных ab initio.
7	strand	Направление элемента относительно цепи, на которой располагается: «+», если направление 5'->3', «-», если направление 3'->5', «.», если направление отсутствует. Также может использоваться «?» для элементов, направление которых неизвестно.
8	frame (GTF, GFF2) или phase (GFF3)	Рамка считывания или фаза для белок-кодирующих последовательностей. В форматах GFF2 и GTF frame указывает, какому основанию участка соответствует первое основание кодона рамки: первому (0), второму (1) или третьему (2), являясь тем самым остатком от деления на 3 длины всех предыдущих кодирующих фрагментов. «.» указывается, когда описываемый участок нельзя отнести к первым трем случаям. В формате GFF3 phase тоже принимает значения 0, 1 или 2 и указывает количество оснований, которые должны быть удалены с начала этого элемента, чтобы достичь первого основания следующего кодона.
9	attribute	Поле для дополнительной информации, например, для группировки отдельных наборов записей под одним названием. Здесь прописываются идентификаторы элементов более высоких порядков, к примеру, группировка интронов и экзонов в предсказание одного определённого гена.

Поле 9 в различных версиях

Поле group/attribute^[5] используется для решения нескольких задач:

объединить в одну группу элементы, принадлежащие одной последовательности (например, разные экзоны одного гена);
дать элементу имя, тем самым облегчив его поиск в файле;
добавить заметки об элементе;
добавить альтернативное имя.

В формате GFF2 поле 9 называется group. Атрибуты поля отделены от их значений пробелом, между двумя парами «атрибут-значение» ставится точка с запятой. Пример использования поля group в формате GFF:

Chr3 giemsa heterochromatin 4500000 6000000 . . . Band 3q12.1 ; Note "Marfan's syndrome"

В формате GTF вместо поля group записывается attribute, которое включает два обязательных атрибута^[5]:

• gene_id — уникальный идентификатор для геномного локуса транскрипта; если он не указан, тогда нет гена, связанного с определённым элементом;

• transcript_id — уникальный идентификатор для предсказанного транскрипта; если он не указан, тогда нет транскрипта, связанного с описанным элементом.

Такие атрибуты предназначены для обработки нескольких транскриптов и одной и той же области генома. Пример использования поля attribute в формате GTF^[7]:

AB000381 Twinscan  CDS          380   401   .   +   0  gene_id "001"; transcript_id "001.1";

В формате GFF3 атрибуты поля записываются через «=», а между каждой парой «атрибут=значение» ставится точка с запятой^[9]. Список всех атрибутов девятого поля в GFF3:


Название атрибута	Описание
ID	Уникальный идентификатор. Каждый идентификатор не может повторяться в одном файле GFF.
Name	Отображаемое для пользователя имя. В отличие от ID, не обязан быть уникальным.
Alias	Второе имя. Используется для обозначения имени локуса или номера доступа. Как и Name, не обязан быть уникальным.
Parent	Идентификатор характеристики на 1 уровень выше. Уникален для GFF3 и поддерживает его многоуровневую иерархию.
Target	Идентификатор типа выравнивания: ДНК-ДНК или белок-ДНК. Формат значения: «target_id start end [strand]», где strand является необязательным и может быть «+» или «-».
Gap	Идентификатор типа выравнивания, в котором присутствуют гэпы. Формат выравнивания берется из CIGAR^[10].
Derives_from	Используется для устранения неоднозначности отношения между одной функцией и другой, когда связь является временной, а не чисто структурной «частью». Это необходимо для полицистронных генов.
Note	Дополнительная заметка.
dbxref	Ссылка на базу данных.
Ontology_term	Перекрестная ссылка на онтологию.

Пример поля attribute в формате GFF3:

##gff-version 3
ctg123 . mRNA            1300  9000  .  +  .  ID=mrna0001;Name=sonichedgehog
ctg123 . exon            1300  1500  .  +  .  ID=exon00001;Parent=mrna0001
ctg123 . exon            1050  1500  .  +  .  ID=exon00002;Parent=mrna0001

Использование GFF

GFF — простой и стандартизованный файловый формат. Он используется для хранения результатов предсказания или экспериментального определения генов и более сложных функциональных элементов генома.
«Экспериментальные» GFF-файлы могут быть полезными для проверки предсказанных методами биоинформатики элементов генома^[11].

Программы, использующие формат GFF:

Программа	Описание
GFF3 online validator	Валидация файлов формата GFF3
GenSAS	Сервер для аннотаций последовательностей
Integrated Genome Browser	Просмотр данных РНК-секвенирования и ChIP-секвенирования вдоль аннотации генома
Шаблон:Нп1	Просмотр и редактирование множественных выравниваний
STRAP	Поиск элементов во множественных выравниваниях

Конвертирование GFF2 в GFF3

Существует несколько серверов, позволяющих перевести файл из GFF2 в формат GFF3^[12]^[13]. Однако каждый из них немного по-разному интерпретирует исходные данные в файле GFF2, что создает проблемы при конвертации и ограничивает возможность их применения^[14].

Например, если в поле feature версии GFF2 термин не соответствует стандартам Шаблон:Нп1, то это необходимо каким-либо образом исправить при переводе в формат GFF3^[14].

Примечания

Шаблон:Примечания

Литература

[1] Шаблон:Статья

[glimmer-2] Шаблон:Cite web

[genscan-3] Шаблон:Cite web

[gff3_summ-4] 4,0 ^4,1 Шаблон:Cite web

[gmod-5] 5,0 ^5,1 ^5,2 ^5,3 Шаблон:Cite web

[gff_versions-6] Шаблон:Cite web

[gtf-7] 7,0 ^7,1 Шаблон:Cite web

[gff3_format-8] Шаблон:Cite web

[gff3-9] Шаблон:Cite web

[10] Шаблон:Cite web

[Stanke2008-11] Шаблон:Cite pmid

[gffread-12] Шаблон:Cite web

[13] Шаблон:Cite web

[gmod_gff_conv-14] 14,0 ^14,1 Шаблон:Cite web

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

Партнерские ресурсы
Криптовалюты	Обмен криптовалют - www.bestchange.ru Криптовалютная биржа CoinEx Криптовалютная биржа Binance HIVE OS - операционная система для майнинга e4pool - Мультивалютный пул для майнинга.
Магазины	AliExpress — глобальная виртуальная (в Интернете) торговая площадка, предоставляющая возможность покупать товары производителей из КНР; computeruniverse.net - Интернет-магазин компьютеров(Промо код 5 Евро на первую покупку:FWWC3ZKQ);
Хостинг	DigitalOcean - американский провайдер облачных инфраструктур, с главным офисом в Нью-Йорке и с центрами обработки данных по всему миру;
Разное	Викиум - Онлайн-тренажер для мозга Like Центр - Центр поддержки и развития предпринимательства. Gamersbay - лучший магазин по бустингу для World of Warcraft. Ноотропы OmniMind N°1 - Усиливает мозговую активность. Повышает мотивацию. Улучшает память. Санкт-Петербургская школа телевидения - это федеральная сеть образовательных центров, которая имеет филиалы в 37 городах России. Lingualeo.com — интерактивный онлайн-сервис для изучения и практики английского языка в увлекательной игровой форме. Junyschool (Джунискул) – международная школа программирования и дизайна для детей и подростков от 5 до 17 лет, где ученики осваивают компьютерную грамотность, развивают алгоритмическое и креативное мышление, изучают основы программирования и компьютерной графики, создают собственные проекты: игры, сайты, программы, приложения, анимации, 3D-модели, монтируют видео. Умназия - Интерактивные онлайн-курсы и тренажеры для развития мышления детей 6-13 лет SkillBox - это один из лидеров российского рынка онлайн-образования. Среди партнеров Skillbox ведущий разработчик сервисного дизайна AIC, медиа-компания Yoola, первое и самое крупное русскоязычное аналитическое агентство Tagline, онлайн-школа дизайна и иллюстрации Bang! Bang! Education, оператор PR-рынка PACO, студия рисования Draw&Go, агентство performance-маркетинга Ingate, scrum-студия Sibirix, имидж-лаборатория Персона. «Нетология» — это университет по подготовке и дополнительному обучению специалистов в области интернет-маркетинга, управления проектами и продуктами, дизайна, Data Science и разработки. В рамках Нетологии студенты получают ценные теоретические знания от лучших экспертов Рунета, выполняют практические задания на отработку полученных навыков, общаются с экспертами и единомышленниками. Познакомиться со всеми продуктами подробнее можно на сайте https://netology.ru, линейка курсов и профессий постоянно обновляется. StudyBay Brazil – это онлайн биржа для португалоговорящих студентов и авторов! Студент получает уникальную работу любого уровня сложности и больше свободного времени, в то время как у автора появляется дополнительный заработок и бесценный опыт. Автор24 — самая большая в России площадка по написанию учебных работ: контрольные и курсовые работы, дипломы, рефераты, решение задач, отчеты по практике, а так же любой другой вид работы. Сервис сотрудничает с более 70 000 авторов. Более 1 000 000 работ уже выполнено. StudyBay – это онлайн биржа для англоязычных студентов и авторов! Студент получает уникальную работу любого уровня сложности и больше свободного времени, в то время как у автора появляется дополнительный заработок и бесценный опыт.

Русская Википедия:GFF (формат файла)

Содержание

Общие сведения

Версии GFF

Структура формата GFF

Поле 9 в различных версиях

Использование GFF

Конвертирование GFF2 в GFF3

Примечания

Литература

Навигация

Действия на странице

Действия на странице

Персональные инструменты

Навигация

Поиск

Инструменты