Русская Википедия:Анализ обогащения по функциональной принадлежности

Материал из Онлайн справочника
Перейти к навигацииПерейти к поиску

Шаблон:TOCright Ана́лиз обогащéния по функциона́льной принадлéжности[1] (Шаблон:Lang-en) — совокупность методов для ассоциации набора генов с изменением фенотипа[2]. Для формализации существующих данных о фенотипе такие методы часто используют базы данных предварительно аннотированных наборов генов (например, термины проекта Gene ontology (GO): молекулярные функции, биологические процессы или клеточные компоненты[3]). Результатом применения метода (выдачей программы) в этом случае является множество преаннотированных наборов, частота встречаемости которых во входном наборе статистически значимо отличается от фоновой (например, частоты во всём геноме или в другом наборе генов). Такие преаннотированные наборы называют перепредставленными (если частота выше фоновой) или недопредставленными (если частота ниже фоновой).

Важным нововведением GSEA по сравнению с более ранними методами анализа является возможность анализировать данные не только по отдельным генам независимо, но и учитывать функциональные связи генов между собой. В некоторых случаях, например при слабом изменении индивидуальной экспрессии отдельных генов, применение GSEA приводит к повышению чувствительности метода и получению более полной картины дифференциальной экспрессии[4].

Данный подход был разработан в 2002-2003 годах независимо несколькими группами ученых и получил широкое распространение. Тогда же были предложены[5] первые программы для его реализации[6][7][8][9][10][11].

Отметим, что термин GSEA употребляется в нескольких значениях: как название широкого класса методов, обсуждаемого в данной статье[2], как название более узкого класса методов[2], как название отдельной программы[4].

Предыстория

С появлением проекта «Геном человека» возникла проблема, как интерпретировать и анализировать большой объём новой информации старыми методами. В связи с возникновением методов анализа экспрессии генов, изменяющуюся в ткани у людей с заболеваниями. Данные микрочипов использовались для классификации тканей по молекулярным характеристикам и для создания гипотез о механизмах заболевания, например, в изучении рака, где часто наблюдались большие изменения в экспрессии отдельных генов[12]. Однако, когда изменения в экспрессии генов не сильно выражены, большое количество проверенных генов, высокая вариабельность между отдельными лицами и ограниченные размеры выборки, характерные для исследований человека, затрудняют отделение истинных различий от шума. Множество генов могут участвовать в одном метаболическом пути, и поэтому суммарное изменение экспрессии внутри группы генов приводит к разнице в фенотипическом выражении. Анализ представленности функциональных групп генов фокусируется на изменениях экспрессии в группах генов, таким образом, этот метод позволяет решить проблему поиска небольших изменений экспрессии отдельных генов[8].

Подходы

Для формализации и решения задачи GSEA используются методы математической статистики: оценивается значимость некоторой cтатистики, рассчитанной для каждой предварительно аннотированной группы[13].

Обобщённый алгоритм GSEA

Файл:Gsea meta.png
Схема обобщенного алгоритма GSEA[13]

Обобщённый алгоритм GSEA включает следующие этапы[13]:

  1. Вычисление статистики предварительно аннотированных групп генов — используется один из двух путей:
    • Глобальный тест — построение статистики по входному набору непосредственно для каждой предварительно аннотированной группы, например, на основе Шаблон:Нп4 или Шаблон:Нп4
    • Объединение статистик генов — построение статистики для отдельных генов, на основе которой строится статистика групп. Тогда последовательно определяются:
      1. Статистика генов — в зависимости от типа исходных данных возможен выбор разных статистик для генов, например, отношение сигнал/шум в эксперименте или Шаблон:Нп4, полученное из предварительной обработки
      2. Трансформация статистики генов — статистика генов может быть трансформирована: так, может быть выполнена ранговая трансформация статистики или в зависимости от значения статистики отобрано некоторое подмножество всех генов для дальнейшего анализа
      3. Статистика набора генов — статистики генов, полученные выше, комбинируются для построения статистики предварительно аннотированных наборов генов: например, статистика группы определяется как среднее значение статистики генов, которые в неё входят
  2. Оценка значимости — формулирование для построенной статистики основной и альтернативной гипотез, оценка значимости статистик. Поскольку таким образом тестируется большое число гипотез (о пере-/недопредставленности каждой предварительно аннотированной группы генов), оценка значимости часто включает поправку на множественное тестирование.

Классификация методов

С точки зрения обобщенного алгоритма, рассмотренного выше, отличие между методами GSEA состоит в последовательности процедур, используемых на разных этапах. Авторы обобщенного алгоритма сравнили 261 комбинацию процедур[13]; авторы обзора 2008 года[14] описывают 68 отдельных программ, реализующих эти методы. В этом обзоре предлагается классификация методов на три основных категории: анализ уникального обогащения (SEA), анализ обогащения набора генов (GSEA — в узком смысле) и анализ модульного обогащения (MEA), при этом некоторые программы относятся к нескольким классам. Отметим, что не существует общепринятой формальной постановки задачи GSEA (в широком смысле), что затрудняет оценку результатов и сравнение методов[2].

Анализ уникального обогащения

Анализ уникального обогащения (Шаблон:Lang-en) — методы, которые получают на вход кандидатные гены — гены, относящиеся к некоторой подвыборке генов, которая интересует исследователей (например, гены, достоверно изменившие экспрессию (статистика гена) на заданном уровне значимости), а уже затем для этих генов определяется перепредставленность функциональных групп. Таким образом, эти методы предоставляют исследователю возможность выбрать статистику генов и провести трансформацию — выбрать гены в зависимости от значения статистики, затем строится статистика предварительно аннотированного набора на основе количества генов набора среди кандидатных генов. В качестве статистических моделей используются гипергеометрическое распределение, биномиальное распределение (используется для больших выборок), χ², точный тест Фишера. В большинстве случаев различия между статистическими моделями незначительны[15].

Это простой и эффективный метод, но результат зависит от праметров критерия выбора кандидатных генов. Кроме того, из-за огромного количества генов (типичный результат эксперимента — несколько десятков тысяч профилей экспрессии[9]) взаимосвязи между предварительно аннотированными группами могут теряться[14].

Программы, основанные на этом методе: GoStat, GoMiner, GOTM, BinGO, GOtoolBox, GFinder, Onto-Express, GARBAN, FatiGO, BayGO[14].

Анализ обогащения набора генов

Анализ обогащения набора генов (Шаблон:Lang-en) — альтернативные подходы, включающие ранжирование (трансформацию) всех генов в соответствии со степенью проявления признака (статистика гена), по которому происходит анализ. В этом случае рассматривается все множество генов, а не только самые значимые гены. Используются такие статистики групп, как статистика Колмогорова, t-статистика Стьюдента, U-статистика Манна-Уитни, медиана рангов группы[2].

Главное преимущество — этот метод использует всю информацию, полученную из экспериментов. Однако в качестве входной информации он требует определения функциональной группы для каждого гена, что часто бывает сложной задачей. Предположение, лежащее в основе метода, что гены с противоположных концов списка вносят больший вклад в биологическую функцию, не всегда верно, регуляторные белки часто изменяют свою экспрессию незначительно, но это приводит к большим последствиям[14].

Программы, основанные на этом методе: GSEA (название программы), CapMap, FatiScan, ADGO, ermineJ, PAGE, iGA, GO-Mapper, GOdist, FINA, T-profiler, MetaGP[14].

Анализ модульного обогащения

Анализ модульного обогащения (Шаблон:Lang-en) — методы, которые принимают на вход, как и анализ уникального обогащения, список кандидатных генов, но, в отличие от него, при оценке значимости перепредставленности (то есть на этапах определения статистики набора генов и оценки значимости) рассматривает взаимосвязь терминов GO. Для этого используется, например, Шаблон:Нп4. Таким образом может быть описана функция входного набора генов, не соответствующая отдельному термину. Ограничением метода является то, что гены без сильных отношений с соседями будут исключены из анализа[14].

Программы, основанные на этом методе: ADGO, GeneCodis, ProfCom, topGO, Ontologizer, POSOC, DAVID, GoToolBox[14].

Области применения

Эти методы используют для анализа результатов экспериментов, которые представляют собой некоторый список генов, отличный от всей выборки генов. Например, анализ обогащения по функциональной принадлежности часто используют для генов, дифференциально экспрессирующихся в разных условиях, в этом случае задача состоит в том, чтобы извлечь из Шаблон:Нп5 информацию о каких-либо биологических механизмах.

Важной областью применения данного метода является[3] полногеномный поиск ассоциаций — сравнение больного и здорового генотипов в попытке найти однонуклеотидные полиморфизмы (SNP), которые перепредставлены в геноме больного и могут быть ассоциированы с данным состоянием. Данное применение анализа представленности функциональных групп генов не только помогает в открытии SNP, ассоциированных с заболеваниями, но и помогает осветить соответствующие пути и механизмы заболеваний[16]. Например, GSEA использовался для изучения таких заболеваний, как самопроизвольные преждевременные роды[17], рак почки[18], депрессия[19], неоспороз[20], шизофрения[21], и многих других.

Примечания

Шаблон:Примечания Шаблон:Добротная статья