Русская Википедия:Анализ обогащения по функциональной принадлежности

Шаблон:TOCright Ана́лиз обогащéния по функциона́льной принадлéжности^[1] (Шаблон:Lang-en) — совокупность методов для ассоциации набора генов с изменением фенотипа^[2]. Для формализации существующих данных о фенотипе такие методы часто используют базы данных предварительно аннотированных наборов генов (например, термины проекта Gene ontology (GO): молекулярные функции, биологические процессы или клеточные компоненты^[3]). Результатом применения метода (выдачей программы) в этом случае является множество преаннотированных наборов, частота встречаемости которых во входном наборе статистически значимо отличается от фоновой (например, частоты во всём геноме или в другом наборе генов). Такие преаннотированные наборы называют перепредставленными (если частота выше фоновой) или недопредставленными (если частота ниже фоновой).

Важным нововведением GSEA по сравнению с более ранними методами анализа является возможность анализировать данные не только по отдельным генам независимо, но и учитывать функциональные связи генов между собой. В некоторых случаях, например при слабом изменении индивидуальной экспрессии отдельных генов, применение GSEA приводит к повышению чувствительности метода и получению более полной картины дифференциальной экспрессии^[4].

Данный подход был разработан в 2002-2003 годах независимо несколькими группами ученых и получил широкое распространение. Тогда же были предложены^[5] первые программы для его реализации^[6]^[7]^[8]^[9]^[10]^[11].

Отметим, что термин GSEA употребляется в нескольких значениях: как название широкого класса методов, обсуждаемого в данной статье^[2], как название более узкого класса методов^[2], как название отдельной программы^[4].

Предыстория

С появлением проекта «Геном человека» возникла проблема, как интерпретировать и анализировать большой объём новой информации старыми методами. В связи с возникновением методов анализа экспрессии генов, изменяющуюся в ткани у людей с заболеваниями. Данные микрочипов использовались для классификации тканей по молекулярным характеристикам и для создания гипотез о механизмах заболевания, например, в изучении рака, где часто наблюдались большие изменения в экспрессии отдельных генов^[12]. Однако, когда изменения в экспрессии генов не сильно выражены, большое количество проверенных генов, высокая вариабельность между отдельными лицами и ограниченные размеры выборки, характерные для исследований человека, затрудняют отделение истинных различий от шума. Множество генов могут участвовать в одном метаболическом пути, и поэтому суммарное изменение экспрессии внутри группы генов приводит к разнице в фенотипическом выражении. Анализ представленности функциональных групп генов фокусируется на изменениях экспрессии в группах генов, таким образом, этот метод позволяет решить проблему поиска небольших изменений экспрессии отдельных генов^[8].

Подходы

Для формализации и решения задачи GSEA используются методы математической статистики: оценивается значимость некоторой cтатистики, рассчитанной для каждой предварительно аннотированной группы^[13].

Обобщённый алгоритм GSEA

Файл:Gsea meta.png

Схема обобщенного алгоритма GSEA^[13]

Обобщённый алгоритм GSEA включает следующие этапы^[13]:

Вычисление статистики предварительно аннотированных групп генов — используется один из двух путей:
- Глобальный тест — построение статистики по входному набору непосредственно для каждой предварительно аннотированной группы, например, на основе Шаблон:Нп4 или Шаблон:Нп4
- Объединение статистик генов — построение статистики для отдельных генов, на основе которой строится статистика групп. Тогда последовательно определяются:
  1. Статистика генов — в зависимости от типа исходных данных возможен выбор разных статистик для генов, например, отношение сигнал/шум в эксперименте или Шаблон:Нп4, полученное из предварительной обработки
  2. Трансформация статистики генов — статистика генов может быть трансформирована: так, может быть выполнена ранговая трансформация статистики или в зависимости от значения статистики отобрано некоторое подмножество всех генов для дальнейшего анализа
  3. Статистика набора генов — статистики генов, полученные выше, комбинируются для построения статистики предварительно аннотированных наборов генов: например, статистика группы определяется как среднее значение статистики генов, которые в неё входят
Оценка значимости — формулирование для построенной статистики основной и альтернативной гипотез, оценка значимости статистик. Поскольку таким образом тестируется большое число гипотез (о пере-/недопредставленности каждой предварительно аннотированной группы генов), оценка значимости часто включает поправку на множественное тестирование.

Классификация методов

С точки зрения обобщенного алгоритма, рассмотренного выше, отличие между методами GSEA состоит в последовательности процедур, используемых на разных этапах. Авторы обобщенного алгоритма сравнили 261 комбинацию процедур^[13]; авторы обзора 2008 года^[14] описывают 68 отдельных программ, реализующих эти методы. В этом обзоре предлагается классификация методов на три основных категории: анализ уникального обогащения (SEA), анализ обогащения набора генов (GSEA — в узком смысле) и анализ модульного обогащения (MEA), при этом некоторые программы относятся к нескольким классам. Отметим, что не существует общепринятой формальной постановки задачи GSEA (в широком смысле), что затрудняет оценку результатов и сравнение методов^[2].

Анализ уникального обогащения

Анализ уникального обогащения (Шаблон:Lang-en) — методы, которые получают на вход кандидатные гены — гены, относящиеся к некоторой подвыборке генов, которая интересует исследователей (например, гены, достоверно изменившие экспрессию (статистика гена) на заданном уровне значимости), а уже затем для этих генов определяется перепредставленность функциональных групп. Таким образом, эти методы предоставляют исследователю возможность выбрать статистику генов и провести трансформацию — выбрать гены в зависимости от значения статистики, затем строится статистика предварительно аннотированного набора на основе количества генов набора среди кандидатных генов. В качестве статистических моделей используются гипергеометрическое распределение, биномиальное распределение (используется для больших выборок), χ², точный тест Фишера. В большинстве случаев различия между статистическими моделями незначительны^[15].

Это простой и эффективный метод, но результат зависит от праметров критерия выбора кандидатных генов. Кроме того, из-за огромного количества генов (типичный результат эксперимента — несколько десятков тысяч профилей экспрессии^[9]) взаимосвязи между предварительно аннотированными группами могут теряться^[14].

Программы, основанные на этом методе: GoStat, GoMiner, GOTM, BinGO, GOtoolBox, GFinder, Onto-Express, GARBAN, FatiGO, BayGO^[14].

Анализ обогащения набора генов

Анализ обогащения набора генов (Шаблон:Lang-en) — альтернативные подходы, включающие ранжирование (трансформацию) всех генов в соответствии со степенью проявления признака (статистика гена), по которому происходит анализ. В этом случае рассматривается все множество генов, а не только самые значимые гены. Используются такие статистики групп, как статистика Колмогорова, t-статистика Стьюдента, U-статистика Манна-Уитни, медиана рангов группы^[2].

Главное преимущество — этот метод использует всю информацию, полученную из экспериментов. Однако в качестве входной информации он требует определения функциональной группы для каждого гена, что часто бывает сложной задачей. Предположение, лежащее в основе метода, что гены с противоположных концов списка вносят больший вклад в биологическую функцию, не всегда верно, регуляторные белки часто изменяют свою экспрессию незначительно, но это приводит к большим последствиям^[14].

Программы, основанные на этом методе: GSEA (название программы), CapMap, FatiScan, ADGO, ermineJ, PAGE, iGA, GO-Mapper, GOdist, FINA, T-profiler, MetaGP^[14].

Анализ модульного обогащения

Анализ модульного обогащения (Шаблон:Lang-en) — методы, которые принимают на вход, как и анализ уникального обогащения, список кандидатных генов, но, в отличие от него, при оценке значимости перепредставленности (то есть на этапах определения статистики набора генов и оценки значимости) рассматривает взаимосвязь терминов GO. Для этого используется, например, Шаблон:Нп4. Таким образом может быть описана функция входного набора генов, не соответствующая отдельному термину. Ограничением метода является то, что гены без сильных отношений с соседями будут исключены из анализа^[14].

Программы, основанные на этом методе: ADGO, GeneCodis, ProfCom, topGO, Ontologizer, POSOC, DAVID, GoToolBox^[14].

Области применения

Эти методы используют для анализа результатов экспериментов, которые представляют собой некоторый список генов, отличный от всей выборки генов. Например, анализ обогащения по функциональной принадлежности часто используют для генов, дифференциально экспрессирующихся в разных условиях, в этом случае задача состоит в том, чтобы извлечь из Шаблон:Нп5 информацию о каких-либо биологических механизмах.

Важной областью применения данного метода является^[3] полногеномный поиск ассоциаций — сравнение больного и здорового генотипов в попытке найти однонуклеотидные полиморфизмы (SNP), которые перепредставлены в геноме больного и могут быть ассоциированы с данным состоянием. Данное применение анализа представленности функциональных групп генов не только помогает в открытии SNP, ассоциированных с заболеваниями, но и помогает осветить соответствующие пути и механизмы заболеваний^[16]. Например, GSEA использовался для изучения таких заболеваний, как самопроизвольные преждевременные роды^[17], рак почки^[18], депрессия^[19], неоспороз^[20], шизофрения^[21], и многих других.

Примечания

Шаблон:Примечания Шаблон:Добротная статья

↑ Шаблон:Cite doi
↑ ^2,0 ^2,1 ^2,2 ^2,3 ^2,4 Ошибка цитирования Неверный тег <ref>; для сносок :4 не указан текст
↑ ^3,0 ^3,1 Шаблон:Cite doi
↑ ^4,0 ^4,1 Шаблон:Cite doi
↑ Шаблон:Cite doi
↑ Шаблон:Cite doi
↑ Шаблон:Cite doi
↑ ^8,0 ^8,1 Шаблон:Cite doi
↑ ^9,0 ^9,1 Шаблон:Cite doi
↑ Шаблон:Cite doi
↑ Шаблон:Cite doi
↑ Шаблон:Cite doi
↑ ^13,0 ^13,1 ^13,2 ^13,3 Шаблон:Cite doi
↑ ^14,0 ^14,1 ^14,2 ^14,3 ^14,4 ^14,5 ^14,6 Шаблон:Cite doi
↑ Шаблон:Cite doi
↑ Шаблон:Cite doi
↑ Шаблон:Cite doi
↑ Шаблон:Cite doi
↑ Шаблон:Cite doi
↑ Шаблон:Cite doi
↑ Шаблон:Cite doi

[1] Шаблон:Cite doi

[:4-2] 2,0 ^2,1 ^2,2 ^2,3 ^2,4 Ошибка цитирования Неверный тег <ref>; для сносок :4 не указан текст

[автоссылка1-3] 3,0 ^3,1 Шаблон:Cite doi

[:5-4] 4,0 ^4,1 Шаблон:Cite doi

[5] Шаблон:Cite doi

[6] Шаблон:Cite doi

[7] Шаблон:Cite doi

[:2-8] 8,0 ^8,1 Шаблон:Cite doi

[автоссылка2-9] 9,0 ^9,1 Шаблон:Cite doi

[10] Шаблон:Cite doi

[11] Шаблон:Cite doi

[12] Шаблон:Cite doi

[:3-13] 13,0 ^13,1 ^13,2 ^13,3 Шаблон:Cite doi

[:0-14] 14,0 ^14,1 ^14,2 ^14,3 ^14,4 ^14,5 ^14,6 Шаблон:Cite doi

[15] Шаблон:Cite doi

[16] Шаблон:Cite doi

[17] Шаблон:Cite doi

[18] Шаблон:Cite doi

[19] Шаблон:Cite doi

[20] Шаблон:Cite doi

[21] Шаблон:Cite doi

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

Партнерские ресурсы
Криптовалюты	Обмен криптовалют - www.bestchange.ru Криптовалютная биржа CoinEx Криптовалютная биржа Binance HIVE OS - операционная система для майнинга e4pool - Мультивалютный пул для майнинга.
Магазины	AliExpress — глобальная виртуальная (в Интернете) торговая площадка, предоставляющая возможность покупать товары производителей из КНР; computeruniverse.net - Интернет-магазин компьютеров(Промо код 5 Евро на первую покупку:FWWC3ZKQ);
Хостинг	DigitalOcean - американский провайдер облачных инфраструктур, с главным офисом в Нью-Йорке и с центрами обработки данных по всему миру;
Разное	Викиум - Онлайн-тренажер для мозга Like Центр - Центр поддержки и развития предпринимательства. Gamersbay - лучший магазин по бустингу для World of Warcraft. Ноотропы OmniMind N°1 - Усиливает мозговую активность. Повышает мотивацию. Улучшает память. Санкт-Петербургская школа телевидения - это федеральная сеть образовательных центров, которая имеет филиалы в 37 городах России. Lingualeo.com — интерактивный онлайн-сервис для изучения и практики английского языка в увлекательной игровой форме. Junyschool (Джунискул) – международная школа программирования и дизайна для детей и подростков от 5 до 17 лет, где ученики осваивают компьютерную грамотность, развивают алгоритмическое и креативное мышление, изучают основы программирования и компьютерной графики, создают собственные проекты: игры, сайты, программы, приложения, анимации, 3D-модели, монтируют видео. Умназия - Интерактивные онлайн-курсы и тренажеры для развития мышления детей 6-13 лет SkillBox - это один из лидеров российского рынка онлайн-образования. Среди партнеров Skillbox ведущий разработчик сервисного дизайна AIC, медиа-компания Yoola, первое и самое крупное русскоязычное аналитическое агентство Tagline, онлайн-школа дизайна и иллюстрации Bang! Bang! Education, оператор PR-рынка PACO, студия рисования Draw&Go, агентство performance-маркетинга Ingate, scrum-студия Sibirix, имидж-лаборатория Персона. «Нетология» — это университет по подготовке и дополнительному обучению специалистов в области интернет-маркетинга, управления проектами и продуктами, дизайна, Data Science и разработки. В рамках Нетологии студенты получают ценные теоретические знания от лучших экспертов Рунета, выполняют практические задания на отработку полученных навыков, общаются с экспертами и единомышленниками. Познакомиться со всеми продуктами подробнее можно на сайте https://netology.ru, линейка курсов и профессий постоянно обновляется. StudyBay Brazil – это онлайн биржа для португалоговорящих студентов и авторов! Студент получает уникальную работу любого уровня сложности и больше свободного времени, в то время как у автора появляется дополнительный заработок и бесценный опыт. Автор24 — самая большая в России площадка по написанию учебных работ: контрольные и курсовые работы, дипломы, рефераты, решение задач, отчеты по практике, а так же любой другой вид работы. Сервис сотрудничает с более 70 000 авторов. Более 1 000 000 работ уже выполнено. StudyBay – это онлайн биржа для англоязычных студентов и авторов! Студент получает уникальную работу любого уровня сложности и больше свободного времени, в то время как у автора появляется дополнительный заработок и бесценный опыт.

Русская Википедия:Анализ обогащения по функциональной принадлежности

Содержание

Предыстория

Подходы

Обобщённый алгоритм GSEA

Классификация методов

Анализ уникального обогащения

Анализ обогащения набора генов

Анализ модульного обогащения

Области применения

Примечания

Навигация

Действия на странице

Действия на странице

Персональные инструменты

Навигация

Поиск

Инструменты