Русская Википедия:Предсказание вторичной структуры РНК

Предсказа́ние втори́чной структу́ры РНК — метод определения вторичной структуры нуклеиновой кислоты по последовательности её нуклеотидов. Вторичную структуру можно предсказывать для единичной последовательности или анализировать множественное выравнивание семейства родственных РНК.

Вторичная структура нуклеиновой кислоты зависит, главным образом, от спаривания оснований друг с другом и стэкинг-взаимодействий. Однако во многих случаях вторичная структура РНК сохраняется в ходе эволюции в большей степени, чем её первичная последовательность^[1]. Многие способы предсказания вторичной структуры основаны на методе динамического программирования и не в состоянии эффективно выявлять псевдоузлы.

Несмотря на схожесть, существуют некоторые различия в методах предсказания структур ДНК и РНК. В естественных условиях ДНК чаще всего представляет собой полностью комплементарный дуплекс, в то время как РНК образует сложные вторичные и третичные структуры, как, например, у тРНК, рибосомальных РНК или сплайсосом. Происходит это отчасти потому, что дополнительный атом кислорода в составе рибозы увеличивает склонность к образованию водородной связи основной цепью нуклеиновой кислоты. Отличаются и энергетические параметры двух этих нуклеиновых кислот.

Предсказание структуры единичной молекулы РНК

Вторичная структура небольших молекул РНК в значительной степени определяется сильными локальными взаимодействиями, такими как водородные связи и стэкинг-взаимодействия пар оснований. Сумма свободных энергий таких взаимодействий должна обеспечивать стабильность данной структуры. Для предсказания свободной энергии укладки вторичной структуры используется модель ближайшего соседа (Шаблон:Lang-en). В этой модели изменение свободной энергии для каждого мотива зависит от последовательности самого мотива и ближайших к нему пар оснований^[2]. Модель и параметры минимальной энергии для классических Уотсон-Криковских пар, пары гуанин-урацил и петли были получены эмпирическими калориметрическими экспериментами, самые современные параметры были опубликованы в 2004 году^[3], хотя большинство программных пакетов до сих пор использует предыдущий набор, собранный в 1999 году^[4].

Самый простой способ найти структуру с минимальной свободной энергией — это генерировать все возможные структуры и вычислить для них свободную энергию, но число возможных структур последовательности экспоненциально возрастает с увеличением длины РНК (Количество вторичных структур = (1,8) ^N, где N — число нуклеотидов)^[5]. Так, для РНК длиной всего в 200 пар нуклеотидов существует более 10⁵⁰ возможных структур со спаренными основаниями^[1].

Алгоритмы на основе динамического программирования

Одним из подходов к предсказанию вторичной структуры РНК является алгоритм Нуссинов, основанный на динамическом программировании и заключающийся в нахождении структуры с наибольшим количеством пар оснований^[6]. Однако этот алгоритм слишком прост и не учитывает важные структурные свойства, такие как предпочтения определенных длин петель или предпочтения определенных ближайших соседей по структуре, возникающие вследствие стэкинг-взаимодействий между соседними парами оснований в шпильках РНК^[1]. Кроме того, решение часто бывает не единственное. В 1980 году Нуссинов с коллегами опубликовали адаптацию их подхода, используя простую энергетическую модель ближайших соседей^[7].

Сворачивание РНК обусловлено физическими причинами, а не подсчётом и максимизацией числа спаренных оснований. Метод, предложенный в 1981 году Майклом Цукером и Патриком Стейглером, предполагает, что правильная структура в равновесии обладает наименьшей свободной энергией (ΔG)^[8]. ΔG вторичной структуры РНК оценивается как сумма свободных энергий петель, пар оснований и других элементов вторичной структуры. Важное отличие от более простого алгоритма Нуссинов заключается в том, что при вычислении энергии шпилек энергия стэкинга соответствует взаимодействию соседних пар оснований, а не самим парам^[1].

Динамическое программирование позволяет проверить все возможные варианты вторичных структур РНК без непосредственного их создания. Алгоритм работает рекурсивно. Наилучшая структура с минимальной возможной энергией рассчитывается сперва для всевозможных маленьких подпоследовательностей, а затем — для всё больших и больших подпоследовательностей. Точное строение молекулы РНК определяется вычислением минимальной свободной энергии полной последовательности^[2].

Алгоритмы динамического программирования обычно используются, чтобы обнаружить «хорошо вложенные» паттерны пар оснований, то есть те, которые образуют водородные связи, не перекрывающиеся с другими участками последовательности. К таким структурам относятся двойные спирали, стеблевые петли и варианты «клеверного листа», встречающиеся, например, в транспортной РНК. Эти методы основаны на заданных расчетных параметрах, оценивающих свободную энергию спаривания определенных типов пар оснований, включая Уотсона-Криковские и Хугстиновские пары. В зависимости от сложности метода, одиночные пары оснований могут рассматриваться так же, как и короткие сегменты из двух-трех пар оснований для учёта эффекта стекинг-взаимодействий. Без существенных алгоритмических модификаций, требующих чрезвычайно больших вычислительных затрат, эти методы не могут определить псевдоузлы^[9].

Субоптимальные структуры

Точность предсказания вторичной структуры единичной молекулы РНК путём минимизации свободной энергии ограничивается несколькими факторами:

В модели ближайшего соседа величина свободной энергии не может принимать некоторые допустимые значения.
Не все известные РНК укладки соответствуют термодинамическому минимуму.
Некоторые последовательности РНК имеют более одной биологически активной конформации (так называемые, рибопереключатели)

По этой причине способ предсказания вторичных структур с похожим низким значением свободной энергии может дать существенную информацию. Такие структуры называются субоптимальными. MFOLD — одна из программ, генерирующих субоптимальные структуры^[10].

Предсказание псевдоузлов

Файл:Pseudoknot.svg

Псевдоузел из Шаблон:Нп5

Одной из проблем предсказания вторичной структуры РНК является то, что стандартные методы минимизации свободной энергии и статистические методы не могут выявить псевдоузлы^[4]. Этот недостаток объясняется тем, что обычные алгоритмы динамического программирования рассматривают только взаимодействия между ближайшими нуклеотидами, в то время как псевдоузлы образуются в результате взаимодействия между удаленными нуклеотидами. Ривас и Эдди опубликовали алгоритм динамического программирования для прогнозирования псевдоузлов^[9]. Однако этот алгоритм динамического программирования осуществляется очень медленно. Время работы стандартного алгоритма динамического программирования для минимизации свободной энергии составляет O (N³) (N — число нуклеотидов в последовательности), а алгоритм Риваса и Эдди требует O (N⁶) по времени. Это побудило исследователей к реализации версии алгоритма, которая ограничивает классы псевдоузлов, позволяя сэкономить время. Например, pknotsRG, включающий в себя только класс простых рекурсивных псевдоузлов, требует O (N⁴) операций^[11].

Другие подходы к предсказанию вторичной структуры РНК

Другим подходом для предсказания вторичной структуры РНК является определение укладки с помощью ансамбля Больцмана^[12]^[13], например, в программе SFOLD. Данная программа генерирует статистическую выборку всех возможных вторичных структур РНК. Алгоритм отбирает вторичные структуры в соответствии с распределением Больцмана. Подобный метод отбора предлагает хорошее решение проблемы неопределенности в укладке^[13].

Предсказание вторичной структуры семейств родственных РНК

Ковариантные модели основаны на существовании семейств родственных РНК, имеющих не только общую вторичную структуру, но и некоторые общие мотивы в последовательностях. Эти методы анализируют ковариацию отдельных сайтов оснований в ходе эволюции; сохранение двух довольно удаленных друг от друга нуклеотидов указывает на наличие структурно необходимой водородной связи между ними. Было показано, что проблема предсказания псевдоузлов является NP-полной задачей^[14]

Проблема выравнивания и предсказания консенсусной структуры тесно связаны. Можно выделить три различных подхода к предсказанию консенсусных структур^[15]:

Укладка выравнивания;
Одновременное выравнивание последовательностей и укладка;
Выравнивание предсказанных структур.

Выравнивание с последующей укладкой

Данный подход заключается в построении множественного выравнивания последовательностей РНК, нахождении консенсусной последовательности, а затем её укладке. Качество выравнивания определяет точность консенсусной структурной модели. Консенсусная последовательность укладывается с использованием различных подходов, таких же, как и для предсказания вторичной структуры единичных молекул РНК. Подход, использующий термодинамическую укладку использует, например, программа RNAalifold^[16]. Различные подходы используют программы Pfold и ILM. Программа Pfold реализует стохастические контекстно-свободные грамматики (СКСГ)^[17]. ILM (iterated loop matching), в отличие от других алгоритмов укладки выравнивания, может восстанавливать псевдоузлы. Он использует сочетание термодинамики и оценки соответствующего информационного содержания^[18].

Синхронное выравнивание и укладка

Эволюция часто сохраняет функциональную структуру РНК лучше, чем её последовательность^[16]. Таким образом, задача заключается в создании общей структуры для двух или более высоко дивергентных, но гомологичных последовательностей РНК. На практике выравнивания последовательностей становятся непригодными и не помогают повысить точность предсказания структуры, когда сходство двух последовательностей составляет менее 50 %^[19].

Программы на основе структурных выравниваний повышают производительность этих методов, большинство из которых являются вариантами алгоритма Sankoff^[20]. В принципе, алгоритм Sankoff представляет собой объединение алгоритмов выравнивания последовательностей и Nussinov^[6], который ищет максимальный участок спаривания с помощью динамического программирования^[21]. Алгоритм Sankoff сам по себе является теоретическим, поскольку требует очень больших вычислительных ресурсов (время работы O^(n3m) и O^(n2m) памяти, где N — длина последовательности, m — число последовательностей). Однако существуют некоторые попытки реализации ограниченных версий алгоритма Sankoff. К ним относятся, например, Foldalign^[22]^[23], Dynalign^[24]^[25], PMmulti/PMcomp^[21], Stemloc^[26] и Murlet^[27]. В этих реализациях ограничены максимальная длина выравнивания или количество возможных вариантов консенсусной структуры. Так, Foldalign строит локальные выравнивания и ограничивает возможную длину выравнивания последовательностей.

Укладка с последующим выравниванием

Выравнивание предсказанных структур применяется менее широко. Данный подход использует структуры, предсказанные для одиночных молекул РНК. Он выравнивает их с использованием деревьев^[28]. Основная слабость такого подхода заключается в том, что предсказания одной последовательности часто неточны, таким образом, нарушается точность всего дальнейшего анализа.

См. также

Примечания

Шаблон:Примечания

Литература

Шаблон:Книга

Шаблон:Нуклеиновые кислоты

Шаблон:Добротная статья

[Durbin-1] 1,0 ^1,1 ^1,2 ^1,3 Шаблон:Книга

[Mathews06-2] 2,0 ^2,1 Шаблон:Cite pmid

[Mathews04-3] Шаблон:Cite pmid

[Mathews99-4] 4,0 ^4,1 Шаблон:Cite pmid

[Zuker84-5] Шаблон:Статья

[Nussinov78-6] 6,0 ^6,1 Шаблон:Статья

[Nussinov80-7] Шаблон:Cite pmid

[Zuker81-8] Шаблон:Cite pmid

[Rivas99-9] 9,0 ^9,1 Шаблон:Cite pmid

[Zuker03-10] Шаблон:Cite pmid

[Reeder04-11] Шаблон:Cite pmid

[McCaskill90-12] Шаблон:Cite pmid

[Ding03-13] 13,0 ^13,1 Шаблон:Cite pmid

[Lyngso00-14] Шаблон:Cite pmid

[Gardner04-15] Шаблон:Cite pmid

[Hofacker02-16] 16,0 ^16,1 Шаблон:Cite pmid

[Knudsen03-17] Шаблон:Cite pmid

[Ruan04-18] Шаблон:Cite pmid

[pmid19833701-19] Шаблон:Cite pmid

[Sankoff85-20] Шаблон:Статья

[Hofacker04-21] 21,0 ^21,1 Шаблон:Cite pmid

[Havgaard05-22] Шаблон:Cite pmid

[Torarinsson07-23] Шаблон:Cite pmid

[Mathews02-24] Шаблон:Cite pmid

[Harmanci07-25] Шаблон:Cite pmid

[Holmes05-26] Шаблон:Cite pmid

[Kiryu07-27] Шаблон:Cite pmid

[Shapiro90-28] Шаблон:Cite pmid

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

Партнерские ресурсы
Криптовалюты	Обмен криптовалют - www.bestchange.ru Криптовалютная биржа CoinEx Криптовалютная биржа Binance HIVE OS - операционная система для майнинга e4pool - Мультивалютный пул для майнинга.
Магазины	AliExpress — глобальная виртуальная (в Интернете) торговая площадка, предоставляющая возможность покупать товары производителей из КНР; computeruniverse.net - Интернет-магазин компьютеров(Промо код 5 Евро на первую покупку:FWWC3ZKQ);
Хостинг	DigitalOcean - американский провайдер облачных инфраструктур, с главным офисом в Нью-Йорке и с центрами обработки данных по всему миру;
Разное	Викиум - Онлайн-тренажер для мозга Like Центр - Центр поддержки и развития предпринимательства. Gamersbay - лучший магазин по бустингу для World of Warcraft. Ноотропы OmniMind N°1 - Усиливает мозговую активность. Повышает мотивацию. Улучшает память. Санкт-Петербургская школа телевидения - это федеральная сеть образовательных центров, которая имеет филиалы в 37 городах России. Lingualeo.com — интерактивный онлайн-сервис для изучения и практики английского языка в увлекательной игровой форме. Junyschool (Джунискул) – международная школа программирования и дизайна для детей и подростков от 5 до 17 лет, где ученики осваивают компьютерную грамотность, развивают алгоритмическое и креативное мышление, изучают основы программирования и компьютерной графики, создают собственные проекты: игры, сайты, программы, приложения, анимации, 3D-модели, монтируют видео. Умназия - Интерактивные онлайн-курсы и тренажеры для развития мышления детей 6-13 лет SkillBox - это один из лидеров российского рынка онлайн-образования. Среди партнеров Skillbox ведущий разработчик сервисного дизайна AIC, медиа-компания Yoola, первое и самое крупное русскоязычное аналитическое агентство Tagline, онлайн-школа дизайна и иллюстрации Bang! Bang! Education, оператор PR-рынка PACO, студия рисования Draw&Go, агентство performance-маркетинга Ingate, scrum-студия Sibirix, имидж-лаборатория Персона. «Нетология» — это университет по подготовке и дополнительному обучению специалистов в области интернет-маркетинга, управления проектами и продуктами, дизайна, Data Science и разработки. В рамках Нетологии студенты получают ценные теоретические знания от лучших экспертов Рунета, выполняют практические задания на отработку полученных навыков, общаются с экспертами и единомышленниками. Познакомиться со всеми продуктами подробнее можно на сайте https://netology.ru, линейка курсов и профессий постоянно обновляется. StudyBay Brazil – это онлайн биржа для португалоговорящих студентов и авторов! Студент получает уникальную работу любого уровня сложности и больше свободного времени, в то время как у автора появляется дополнительный заработок и бесценный опыт. Автор24 — самая большая в России площадка по написанию учебных работ: контрольные и курсовые работы, дипломы, рефераты, решение задач, отчеты по практике, а так же любой другой вид работы. Сервис сотрудничает с более 70 000 авторов. Более 1 000 000 работ уже выполнено. StudyBay – это онлайн биржа для англоязычных студентов и авторов! Студент получает уникальную работу любого уровня сложности и больше свободного времени, в то время как у автора появляется дополнительный заработок и бесценный опыт.