Русская Википедия:Предсказание вторичной структуры РНК

Материал из Онлайн справочника
Перейти к навигацииПерейти к поиску

Предсказа́ние втори́чной структу́ры РНК — метод определения вторичной структуры нуклеиновой кислоты по последовательности её нуклеотидов. Вторичную структуру можно предсказывать для единичной последовательности или анализировать множественное выравнивание семейства родственных РНК.

Вторичная структура нуклеиновой кислоты зависит, главным образом, от спаривания оснований друг с другом и стэкинг-взаимодействий. Однако во многих случаях вторичная структура РНК сохраняется в ходе эволюции в большей степени, чем её первичная последовательность[1]. Многие способы предсказания вторичной структуры основаны на методе динамического программирования и не в состоянии эффективно выявлять псевдоузлы.

Несмотря на схожесть, существуют некоторые различия в методах предсказания структур ДНК и РНК. В естественных условиях ДНК чаще всего представляет собой полностью комплементарный дуплекс, в то время как РНК образует сложные вторичные и третичные структуры, как, например, у тРНК, рибосомальных РНК или сплайсосом. Происходит это отчасти потому, что дополнительный атом кислорода в составе рибозы увеличивает склонность к образованию водородной связи основной цепью нуклеиновой кислоты. Отличаются и энергетические параметры двух этих нуклеиновых кислот.

Предсказание структуры единичной молекулы РНК

Вторичная структура небольших молекул РНК в значительной степени определяется сильными локальными взаимодействиями, такими как водородные связи и стэкинг-взаимодействия пар оснований. Сумма свободных энергий таких взаимодействий должна обеспечивать стабильность данной структуры. Для предсказания свободной энергии укладки вторичной структуры используется модель ближайшего соседа (Шаблон:Lang-en). В этой модели изменение свободной энергии для каждого мотива зависит от последовательности самого мотива и ближайших к нему пар оснований[2]. Модель и параметры минимальной энергии для классических Уотсон-Криковских пар, пары гуанин-урацил и петли были получены эмпирическими калориметрическими экспериментами, самые современные параметры были опубликованы в 2004 году[3], хотя большинство программных пакетов до сих пор использует предыдущий набор, собранный в 1999 году[4].

Самый простой способ найти структуру с минимальной свободной энергией — это генерировать все возможные структуры и вычислить для них свободную энергию, но число возможных структур последовательности экспоненциально возрастает с увеличением длины РНК (Количество вторичных структур = (1,8) N, где N — число нуклеотидов)[5]. Так, для РНК длиной всего в 200 пар нуклеотидов существует более 1050 возможных структур со спаренными основаниями[1].

Алгоритмы на основе динамического программирования

Одним из подходов к предсказанию вторичной структуры РНК является алгоритм Нуссинов, основанный на динамическом программировании и заключающийся в нахождении структуры с наибольшим количеством пар оснований[6]. Однако этот алгоритм слишком прост и не учитывает важные структурные свойства, такие как предпочтения определенных длин петель или предпочтения определенных ближайших соседей по структуре, возникающие вследствие стэкинг-взаимодействий между соседними парами оснований в шпильках РНК[1]. Кроме того, решение часто бывает не единственное. В 1980 году Нуссинов с коллегами опубликовали адаптацию их подхода, используя простую энергетическую модель ближайших соседей[7].

Сворачивание РНК обусловлено физическими причинами, а не подсчётом и максимизацией числа спаренных оснований. Метод, предложенный в 1981 году Майклом Цукером и Патриком Стейглером, предполагает, что правильная структура в равновесии обладает наименьшей свободной энергией (ΔG)[8]. ΔG вторичной структуры РНК оценивается как сумма свободных энергий петель, пар оснований и других элементов вторичной структуры. Важное отличие от более простого алгоритма Нуссинов заключается в том, что при вычислении энергии шпилек энергия стэкинга соответствует взаимодействию соседних пар оснований, а не самим парам[1].

Динамическое программирование позволяет проверить все возможные варианты вторичных структур РНК без непосредственного их создания. Алгоритм работает рекурсивно. Наилучшая структура с минимальной возможной энергией рассчитывается сперва для всевозможных маленьких подпоследовательностей, а затем — для всё больших и больших подпоследовательностей. Точное строение молекулы РНК определяется вычислением минимальной свободной энергии полной последовательности[2].

Алгоритмы динамического программирования обычно используются, чтобы обнаружить «хорошо вложенные» паттерны пар оснований, то есть те, которые образуют водородные связи, не перекрывающиеся с другими участками последовательности. К таким структурам относятся двойные спирали, стеблевые петли и варианты «клеверного листа», встречающиеся, например, в транспортной РНК. Эти методы основаны на заданных расчетных параметрах, оценивающих свободную энергию спаривания определенных типов пар оснований, включая Уотсона-Криковские и Хугстиновские пары. В зависимости от сложности метода, одиночные пары оснований могут рассматриваться так же, как и короткие сегменты из двух-трех пар оснований для учёта эффекта стекинг-взаимодействий. Без существенных алгоритмических модификаций, требующих чрезвычайно больших вычислительных затрат, эти методы не могут определить псевдоузлы[9].

Субоптимальные структуры

Точность предсказания вторичной структуры единичной молекулы РНК путём минимизации свободной энергии ограничивается несколькими факторами:

  1. В модели ближайшего соседа величина свободной энергии не может принимать некоторые допустимые значения.
  2. Не все известные РНК укладки соответствуют термодинамическому минимуму.
  3. Некоторые последовательности РНК имеют более одной биологически активной конформации (так называемые, рибопереключатели)

По этой причине способ предсказания вторичных структур с похожим низким значением свободной энергии может дать существенную информацию. Такие структуры называются субоптимальными. MFOLD — одна из программ, генерирующих субоптимальные структуры[10].

Предсказание псевдоузлов

Файл:Pseudoknot.svg
Псевдоузел из Шаблон:Нп5

Одной из проблем предсказания вторичной структуры РНК является то, что стандартные методы минимизации свободной энергии и статистические методы не могут выявить псевдоузлы[4]. Этот недостаток объясняется тем, что обычные алгоритмы динамического программирования рассматривают только взаимодействия между ближайшими нуклеотидами, в то время как псевдоузлы образуются в результате взаимодействия между удаленными нуклеотидами. Ривас и Эдди опубликовали алгоритм динамического программирования для прогнозирования псевдоузлов[9]. Однако этот алгоритм динамического программирования осуществляется очень медленно. Время работы стандартного алгоритма динамического программирования для минимизации свободной энергии составляет O (N3) (N — число нуклеотидов в последовательности), а алгоритм Риваса и Эдди требует O (N6) по времени. Это побудило исследователей к реализации версии алгоритма, которая ограничивает классы псевдоузлов, позволяя сэкономить время. Например, pknotsRG, включающий в себя только класс простых рекурсивных псевдоузлов, требует O (N4) операций[11].

Другие подходы к предсказанию вторичной структуры РНК

Другим подходом для предсказания вторичной структуры РНК является определение укладки с помощью ансамбля Больцмана[12][13], например, в программе SFOLD. Данная программа генерирует статистическую выборку всех возможных вторичных структур РНК. Алгоритм отбирает вторичные структуры в соответствии с распределением Больцмана. Подобный метод отбора предлагает хорошее решение проблемы неопределенности в укладке[13].

Предсказание вторичной структуры семейств родственных РНК

Ковариантные модели основаны на существовании семейств родственных РНК, имеющих не только общую вторичную структуру, но и некоторые общие мотивы в последовательностях. Эти методы анализируют ковариацию отдельных сайтов оснований в ходе эволюции; сохранение двух довольно удаленных друг от друга нуклеотидов указывает на наличие структурно необходимой водородной связи между ними. Было показано, что проблема предсказания псевдоузлов является NP-полной задачей[14]

Проблема выравнивания и предсказания консенсусной структуры тесно связаны. Можно выделить три различных подхода к предсказанию консенсусных структур[15]:

  1. Укладка выравнивания;
  2. Одновременное выравнивание последовательностей и укладка;
  3. Выравнивание предсказанных структур.

Выравнивание с последующей укладкой

Данный подход заключается в построении множественного выравнивания последовательностей РНК, нахождении консенсусной последовательности, а затем её укладке. Качество выравнивания определяет точность консенсусной структурной модели. Консенсусная последовательность укладывается с использованием различных подходов, таких же, как и для предсказания вторичной структуры единичных молекул РНК. Подход, использующий термодинамическую укладку использует, например, программа RNAalifold[16]. Различные подходы используют программы Pfold и ILM. Программа Pfold реализует стохастические контекстно-свободные грамматики (СКСГ)[17]. ILM (iterated loop matching), в отличие от других алгоритмов укладки выравнивания, может восстанавливать псевдоузлы. Он использует сочетание термодинамики и оценки соответствующего информационного содержания[18].

Синхронное выравнивание и укладка

Эволюция часто сохраняет функциональную структуру РНК лучше, чем её последовательность[16]. Таким образом, задача заключается в создании общей структуры для двух или более высоко дивергентных, но гомологичных последовательностей РНК. На практике выравнивания последовательностей становятся непригодными и не помогают повысить точность предсказания структуры, когда сходство двух последовательностей составляет менее 50 %[19].

Программы на основе структурных выравниваний повышают производительность этих методов, большинство из которых являются вариантами алгоритма Sankoff[20]. В принципе, алгоритм Sankoff представляет собой объединение алгоритмов выравнивания последовательностей и Nussinov[6], который ищет максимальный участок спаривания с помощью динамического программирования[21]. Алгоритм Sankoff сам по себе является теоретическим, поскольку требует очень больших вычислительных ресурсов (время работы O(n3m) и O(n2m) памяти, где N — длина последовательности, m — число последовательностей). Однако существуют некоторые попытки реализации ограниченных версий алгоритма Sankoff. К ним относятся, например, Foldalign[22][23], Dynalign[24][25], PMmulti/PMcomp[21], Stemloc[26] и Murlet[27]. В этих реализациях ограничены максимальная длина выравнивания или количество возможных вариантов консенсусной структуры. Так, Foldalign строит локальные выравнивания и ограничивает возможную длину выравнивания последовательностей.

Укладка с последующим выравниванием

Выравнивание предсказанных структур применяется менее широко. Данный подход использует структуры, предсказанные для одиночных молекул РНК. Он выравнивает их с использованием деревьев[28]. Основная слабость такого подхода заключается в том, что предсказания одной последовательности часто неточны, таким образом, нарушается точность всего дальнейшего анализа.

См. также

Примечания

Шаблон:Примечания

Литература

Шаблон:Нуклеиновые кислоты

Шаблон:Добротная статья