Русская Википедия:Количественный анализ альтернативного сплайсинга

Материал из Онлайн справочника
Перейти к навигацииПерейти к поиску

Количественный анализ альтернативного сплайсинга — набор экспериментальных и вычислительных методов, позволяющих определить относительные представленности различных транскриптов одного гена в биологическом образце.

Практическое значение количественного анализа

Альтернативный сплайсинг позволяет одному гену кодировать несколько зрелых транскриптов и, впоследствии, белков. Альтернативный сплайсинг широко распространен у высших эукариот, по современным оценкам до 95 % генов человека сплайсируются альтернативно. Различные изоформы могут производится на разных стадиях развития организма и/или в разных тканях. Альтернативный сплайсинг может меняться в ответ на внешние воздействия или при болезнях. Исследования последних лет указывают на то, что многие генетические заболевания связаны с нарушениями альтернативного сплайсинга. Количественный анализ альтернативного сплайсинга является одной из составляющих анализа транскриптома при решении биологических или медицинских задач.

Методы

Методы анализа альтернативного сплайсинга включают в себя экспериментальные процедуры, применяемые для анализа транскриптома, а также биоинформатические методы предназначенные для обработки результатов экспериментов. Альтернативный сплайсинг в одном гене можно изучать при помощи секвенирования кДНК или ПЦР с обратной транскрипцией. Однако, вследствие развития методов массовой транскриптомики альтернативный сплайсинг все чаще изучается в масштабе всего транскриптома. Первоначально использовались методы, основанные на анализе Шаблон:Не переведено 5 и ДНК-микрочипов с пробами специфичными к отдельным экзонам и/или экзон-экзонным границам. На данный момент основным методом анализа альтернативного сплайсинга является массовое секвенирование РНК. Количественные методы анализа альтернативного сплайсинга используют выравнивания Шаблон:Не переведено 5 полученных в результате массового секвенирования РНК на геном соответствующего организма. Так как транскриптомные прочтения могут проходить через границы экзонов, для их выравнивания используются специальные программы такие как STAR[1], HISAT2[2], GSNAP[3] и другие. Данные программы могут предсказывать границы экзонов и интронов исходя из самих прочтений, или использовать информацию из сторонних источников (например базы данных Ensembl). В некоторых случаях анализ альтернативного сплайсинга может включать создание новой или улучшение существующей геномной аннотации, то есть таблицы координат экзонов, интронов, транскриптов и генов. Для этой цели могут использоваться такие программы как Cufflinks, StringTie, Scripture и другие.

На данный момент опубликовано более десяти различных биоинформатических методов анализа альтернативного сплайсинга на основе данных секвенирования РНК. Большинство из них используют в качестве входных данных выравнивания прочтений на геном в формате bam и геномную аннотацию в формате gff. Некоторые методы включат выравнивание прочтений и аннотацию генома в качестве составных частей. В этом случае входными данными будут являться последовательности прочтений в формате fastq и геномные последовательности в формате fasta.

Существующие биоинформатические методы могут быть разделены на две группы в зависимости от объекта анализа. Часть методов используют транскрипт-центричный подход. В этом случае для каждого транскрипта кодируемого данным геном вычисляется относительная представленность: отношение концентрации данного транскрипта к суммарной концентрации всех транскриптов гена. В экзон-центричным подходе для каждого альтернативно сплайсирующегося экзона или интрона вычисляется частота включения — доля транскриптов содержащих данный экзон или интрон. В английской литературе для обозначения частоты включения обычно используется словосочетание Percent Spliced In или Ψ.

Классификация

Алгоритмы, использующиеся при количественном анализе и оценке альтернативного сплайсинга могут быть классифицированы по тому, используют ли они выравнивание с последовательностью Шаблон:Не переведено 5, или нет.

Алгоритмы de novo реконструкции

Методы, использующие подход ‘сначала сборка’ (de novo) используют Шаблон:Не переведено 5 для непосредственной сборки транскриптов, которые впоследствии могут быть сопоставлены с референсным геномом, если он доступен.

Методы, использующие алгоритмы de novo реконструкции:

  • Trinity
  • Oases
  • SOAPdenovo-Trans
  • EBARDenovo
  • ABySS[4]

Геном-основанные алгоритмы реконструкции

Методы, использующие подход ‘сначала сопоставление’ сначала выравнивают все риды по референсному (неаннотированному) геному, а затем объединяют последовательности с перекрывающимися выравниваниями.

Методы, использующие геном-основанные алгоритмы реконструкции:

Примеры методов

iReckon

У алгоритма iReckon[12] есть три основных этапа: идентификация всех возможных изоформ, перестройка ридов в эти изоформы и реконструкция распространенности каждой предполагаемой изоформы.

На первом этапе IReckon ищет изоформы, которые возможно присутствуют в последовательности образца. Для этого выравнивают все риды с геномом используя алгоритм TopHat[13]. Выравнивание и известные изоформы используются для генерирование множества всех наблюдаемых и известных мест сплайсинга, которые используются для построения графика сплайсинга. Данные о соединениях сплайсинга позволяют обнаруживать события альтернативного сплайсинга. Затем для каждого графика, перечисляются все возможные пути транскрипции от сайта старта до сайта конца. Каждый такой путь соответствует изоформе. Затем добавляется изоформы соответствующей пре-РНК в статистическую модель.

На втором шаге для каждой предполагаемой изоформы, мы извлекаем соответствующую ДНК последовательность и перевыравниванием риды на набор возможных изоформ. Этот шаг позволяет использовать более чувствительные инструменты выравнивания. В результате больше ридов правильно выравнены. Следует заметить, что каждая пара ридов может выровнять не только к нескольким изоформ внутри гена, но и множеству генов. Каждой паре присваивается начальное сродство к каждой изоформе, к которой она была выровнена. Это сродство основано на счете выравнивания.

На последнем шаге, можно определить набор изоформ присутствующий в данных и оценить их распространенность, используя EM-алгоритм на множестве всех возможных изоформ. Стандартный EM-алгоритм оценивает количество каждой изоформы на основании посчитанных пар ридов, а затем перераспределяет пары на изофрормы основываясь на счете выравниваний и оценки экспрессии изоформ.

MISO

MISO[14] — Mixture of ISOforms (смесь с изоформами), статистическая модель которая оценивает экспрессию альтернативно спласированных экзонов или изоформ. MISO выдает доверительные интервалы для оценки множества изоформ.

Для оценки альтернативного сплайсинга используются данные RNA-seq. MISO и большинство других методов используют риды выравненные на последовательности сплайсинг-соединений, которые вычислены из известных или предсказанных экзоно-интронные границ. «Процент сплайсинга» (Ψ) обозначает фракцию мРНК, которая представляет включенную изоформу. Риды выравненные на альтернативные экзоны поддерживают включение изоформ, тогда как риды выравненные на соединения между соседними конститутивными экзонами поддерживают исключение изоформ; относительная плотность ридов этих двух множеств является стандартной оценкой Ψ, обозначенной Ψsg.

МISO образцы равномерно считываются из выбранной изоформы, а затем восстанавливают основные распространенные изоформы с помощью базы коротких ридов. В результате мРНК фрагментации в подготовленной библиотеке, множество мРНК и длин вносят приблизительный вклад для прочтения образцов RNA-seq. Этот эффект обрабатывается путём масштабирования множеств Ψ и 1-Ψ двух изоформ количеством возможных ридов, которые могут быть сгенерированы из каждой изоформы, соответственно. В экзон-ориентированном анализе включающий один альтернативный экзон вводят аналитическое решение проблемы ввода, тогда как для изоформ-ориентированного анализа и оценки используются доверительные интервалы найденные е с помощью метода Монте-Карло. Оценка Ψmiso использует все позиции ридов использованные в Ψsg и риды выравненные на соседние экзоны, а также использует информацию о библиотеке распределения длин вставок в paired-end RNA-seq. Обе оценки Ψmiso и Ψsg являются независимы от оценки.

Cuffdiff

Cuffdiff[15] генерирует более точную оценку изменений в экспрессии генов, по сравнению с другими существующими подходами. Cuffdiff предполагает, что экспрессия транскрипта в каждом условии может быть измерена путём подсчета количества фрагментов сгенерированная им. Таким образом, изменение в уровне экспрессии транскриптов измеряется путём сравнения количества фрагментов каждом условии. Если возможность увидеть изменение достаточно мало по соответствующей статистической модели, то транскрипт считается значительно экспрессируемым.

Cuffdiff определяет степень избыточное рассеяние в смеси по глобально установленной наблюдаемой дисперсии. Затем алгоритм оценивает число фрагментов, которые произошли из каждого транскрипта. Cuffdiff оценивает неопределенность, рассчитывая достоверность, что каждый фрагмент корректно назначен на транскрипт, который сгенерировал его. Транскрипты с более общими экзонами и несколько фрагментов будут давать большую неопределенность. Также алгоритм находит неопределенности во фрагментах транскрипта как бета-распределение избыточного рассеивания как отрицательное биномиальное распределение, которое отображает изменение экспрессии в изоформах. Cuffdiff оценивает экспрессию генов и транскриптов, ковариацию между изоформами одного и того же гена в повторных экспериментах. Это позволяет точно оценить экспрессию генов и выполнить анализ на уровне генов. Программа сообщает пользователю изменение экспрессии для каждого гена и транскрипта, а также статистические значения для оценки этих изменений.

AIDE

AIDE[16] (с англ. annotation-assisted isoform discover) — метод, позволяющий напрямую отсеивать ошибочно определённые изоформы через принцип выбора модели на основе тестирования.

AIDE поэтапно определяет приоритетность аннотированных изоформ и точно идентифицирует новые изоформы, добавление которых значительно улучшает объяснение наблюдаемых считываний RNA-seq. Чтобы компенсировать потерю информации из-за коротких ридов, AIDE использует информацию из аннотации, тем самым достигая самой высокой точности в обнаружении изоформ и самой низкой частоты ошибок в оценке изобилия изоформ, по сравнению со многими другими методами.

SQANTI

SQANTI[17] (с англ. Structural and Quality Annotation of Novel Transcript Isoforms) — инструмент для анализа транскриптомных данных с длинными ридами, который определяет до 47 различных дескрипторов с описаниями свойств транскрипта, и выдает широкий спектр сводных графов для помощи в интерпретации выходных данных секвенирования. Также, реализует алгоритм машинного обучения для удаления возникающих артефактов на основании этих дескрипторов.

Trinity

Trinity[18] — модульный метод, объединяющий три компонента: Inchworm («гусеница»), Chrysalis («куколка») и Butterfly («бабочка»). На первом этапе Inchworm собирает риды в уникальные последовательности транскриптов. Далее, Chrysalis кластеризует связанные контиги, соответствующие частям альтернативно сплайсированных транскриптов или уникальным частям генов-паралогов. Наконец, Butterfly анализирует пути, выбранные для ридов и пар ридов в контексте соответствующего графа де Брёйна, и сообщает обо всех вероятных последовательностях транскриптов, учитывая альтернативно сплайсированные изоформы и транскрипты, полученные из генов-паралогов.

Oases

Oases[19] — метод для эвристической сборки RNA-seq ридов в отсутствие рефересного генома, в широком спектре значений экспрессии и в присутствии альтернативных изоформ. Это достигается за счет использования массива хэш-длин, динамической фильтрации шума, надежного разрешения событий альтернативного сплайсинга и эффективного объединения нескольких сборок.

Процесс сборки, выполняемый Oases, состоит из независимых сборок, которые варьируются одним важным параметром — хеш-длиной (или k-мером). В каждой из сборок, риды используются для построения графа де Брёйна, который затем упрощается из-за ошибок, организуется в скэффолд, разделяется на локусы и, наконец, окончательно анализируется с последующим извлечением сборок транскриптов. Как только все отдельные сборки k-меров завершены, они объединяются в окончательную сборку.

SOAPdenovo-Trans

SOAPdenovo-Trans[20] — алгоритм, включающий в себя модель устранения ошибок метода Trinity и надежный метод обхода эвристического графа, использующийся в Oases.

Алгоритм состоит из двух основных этапов: сборки контигов и сборки транскрипта.

Сборка контигов

  • Из ридов строится граф де Брюина.
  • Убираются ошибки секвенирования.
  • Строятся контиги.

Сборка транскрипта

  • Одно- и двухконцевые риды сопоставляются с собранными контигами для построения графов скэффолда.
  • Транскрипты создаются путем обхода надежных путей для каждого графа.
  • Разрешение неоднозначных контигов.
  • Линеаризация контигов в скэффолды

SOAPdenovo-Trans обходит проблемы, встречающиеся у двух предыдущих методов: Oases предсказывает больше избыточных транскриптов, возможно, из-за отсутствия эффективной модели устранения ошибок, а Trinity предсказывает меньше полноразмерных транскриптов, возможно, из-за того, что не использует данные от двухконцевых ридов для построения скэффолда.

EBARDenovo

EBARDenovo[21] (с англ. Extension, Bridging And Repeat-sensing Denovo) — алгоритм de novo сборки, который расшифровывает, соединяет и распознает повторы de novo. Этот алгоритм использует эффективную функцию обнаружения химерных фрагментов, чтобы аннулировать эффект от аберрантных химерных ридов в данных RNA-Seq. EBARDenovo позволяет разрешить проблемы при сборке RNA-Seq, возникающие из-за ошибок секвенирования, повторяющихся последовательностей и аберрантных химерных ампликонов. Было показано, что является более эффективным по сравнению с Trinity и Oases.

CIDANE

CIDANE[22] — система для реконструкции транскриптов на основе генома и количественной оценки по данным RNA-seq. Помимо реконструкции транскриптов ab initio, алгоритм также позволяет использовать уже аннотированные известные сайты сплайсинга, сайты начала и конца транскрипции или полноразмерные транскрипты, которые доступны для большинства модельных организмов. Основная идея CIDANE — определение наилучшего предсказания транскрипта для модели ценой аппроксимации функции потерь. Линейная модель на основе входных данных предсказывает изоформы и их приблизительное содержание методом регуляризованной регрессии. На следующем, необязательном этапе дополнительные изоформы используются для улучшения предсказания. В конечном итоге список изоформ и их количественное содержание выводится в форме gtf-файла.

Strawberry

Strawberry[23] — метод и вычислительный инструмент для реконструкции транскриптов и количественного анализа независимо от того, аннотированы гены или нет. Для определения минимального набора транскриптов, наилучшим способом объясняющих все наблюдаемые выравнивания ридов, используются flow-network алгоритмы. Strawberry можно использовать сразу после выравнивания, используя достоинства последних сборок геномов.

См. также

Примечания

Шаблон:Примечания

Ссылки