Русская Википедия:Эволюционная дистанция

Материал из Онлайн справочника
Перейти к навигацииПерейти к поиску

Эволюционная дистанция — величина, характеризующая генетические различия между двумя организмами. Находится путём сравнения нуклеотидных последовательностей гомологичных генов. Мерой генетических различий считается процент несовпадений нуклеотидов в соответствующих позициях гена[1].

Методы определения

Попарная дистанция

Простейшей величиной, характеризующей эволюционную дистанцию является доля несовпадающих нуклеотидов при попарном сравнении соответствующих позиций в гене. Эта величина называется «попарной дистанцией» (обычно обозначается символом p).

Например, при сравнении следующих двух участков гена

CAGACAGTCA
CACACTGCCA

на 10 нуклеотидов приходится три несовпадающих, p = 0,3.

Попарная дистанция недостаточно адекватно описывает эволюционные различия между организмами:

  • Так как для двух абсолютно произвольных последовательностей нуклеотидов вероятность их случайного совпадения в соответствующих позициях равна 25 %, то попарное расстояние между двумя совершенно чужеродными участками ДНК в среднем равно p = 0,75, тогда как по смыслу должно быть p = 1.
  • Попарное расстояние не учитывает разную вероятность различных замен нуклеотидов.
  • Попарное расстояние не учитывает возможность многократных мутаций в одной позиции.

Недостатки попарной дистанции устраняются использованием более сложных формул определения дистанции:

  • Метод Джукса-Кантора
  • Метод Тадзимы-Неи
  • Метод Кимуры
  • Метод Тамуры
  • Метод Тамуры-Неи

и другие методы.

Метод Джукса-Кантора

Метод Джукса-Кантора[2] (Шаблон:Lang-en) представляет собой простейшую попытку исключить из рассмотрения случайные совпадения нуклеотидов, вероятность которых составляет 25 %. Это однопараметрический метод, который в качестве параметра использует долю несовпадающих нуклеотидов (то есть попарную дистанцию p). Дистанция рассчитывается по следующей формуле

<math>d_{JC} = - \frac{3}{4} \ln \left( 1 - \frac{4p}{3} \right). </math>

Метод предполагает, что все четыре нуклеотида (А, Ц, Т, Г) присутствуют в ДНК в одинаковых пропорциях, а вероятность замены одного нуклеотида на другой одинакова для любой пары нуклеотидов.

Как видно из формулы при p > 0,75 выражение не имеет смысла (отрицательное выражение под знаком логарифма). Это является недостатком метода, так как ситуации с p > 0,75 (более 75 % различающихся нуклеотидов) принципиально не исключены.

Формула была предложена в 1965 году, на заре исследований в области молекулярной биологии преподавателем химического факультета Калифорнийского университета Шаблон:Не переведено 3 и студентом того же факультета Шаблон:Не переведено 3. В середине 1960-х годов биохимические технологии достигли того уровня, когда стала возможной расшифровка отдельных фрагментов ДНК и аминокислотных последовательностей белков. Это позволило путём сравнения нуклеотидных последовательностей проследить эволюционную близость различных организмов и пути эволюции отдельных видов. Джукс и Кантор входили в число пионеров в деле формализации этого метода, а Кантор стал автором одной из первых компьютерных программ для анализа нуклеотидных последовательностей[3].

В качестве примера применения формулы можно привести фрагменты генов, кодирующих α- и β-гемоглобин человека. Считается, что около 400 млн лет назад оба гена произошли от одного предкового гена[3].

ACCAACGTCAAGGCCGCCTGGGGTAAGGTT (α-гемоглобин)
TCTGCCGTTACTGCCCTGTGGGGGAAGGTG (β-гемоглобин)

Сравнение фрагмента обнаруживает 12 различий на 30 нуклеотидов (p = 0,4). Однако простой подсчёт расхождений не учитывает вероятность того, что в некоторых позициях произошли многократные мутации, в том числе приведшие к восстановлению исходного нуклеотида. Формула Джукса-Кантора даёт дистанцию

<math>d_{JC} = - \frac{3}{4} \ln 0,467 = 0,572.</math>

Таким образом, из формулы следует, что с учётом кратных замен в рассматриваемом фрагменте ДНК произошло 0,572·30=17 мутаций.

Метод Кимуры

Мотоо Кимура предложил метод вычисления дистанции, который получил название «двухпараметрическая дистанция Кимуры» (Шаблон:Lang-en). Модель Кимуры предполагает, что различные варианты замены нуклеотидов неравновероятны и рассматривает два типа замен:

  • Транзиция — замена нуклеотида без смены его типа, например, замена пуринового основания на пуриновое (А ↔ Г) или пиримидинового на пиримидиновое (Ц ↔ Т).
  • Трансверсия — смена типа основания с пуринового на пиримидиновый или наоборот (А или Г ↔ Ц или Т).

Дистанция в модели Кимуры определяется по формуле

<math>d_{K2P} = - \frac{1}{2} \ln (1 - 2P - Q) - \frac{1}{4} \ln (1 - 2Q),</math>

где P — доля транзиций, Q — доля трансверсий.

Рассматривая в качестве примера эволюционную дистанцию между фрагментами генов α- и β-гемоглобина, получим:

ACCAACGTCAAGGCCGCCTGGGGTAAGGTT (α-гемоглобин)
TCTGCCGTTACTGCCCTGTGGGGGAAGGTG (β-гемоглобин)
Q PPQ   P QQ   QPQ     Q     Q
<math>P = \frac{2}{15}; ~~ Q = \frac{4}{15};</math>
<math>d_{K2P} = - \frac{3}{4} \ln \frac{7}{15} = 0,572.</math>

Метод Тадзимы — Нея

В модели Тадзимы — Нея дистанция определяется следующими соотношениями[4]:

<math>d = - b \ln \left( 1 - \frac{p}{b} \right),</math>

где

<math>b = \frac{1}{2} \left( 1 - \sum^{4}_{i=1} g^2_i + \frac{p^2}{c} \right);</math>
<math>c = \sum^{3}_{i=1} \sum^{4}_{j=i+1} \frac{x^2_{ij}}{2 g_i g_j};</math>
xij — относительные частоты пар нуклеотидов;
gi — относительные частоты нуклеотидов.

В качестве примера вычислим дистанцию между фрагментами генов, кодирующих α- и β-гемоглобин человека.

ACCAACGTCAAGGCCGCCTGGGGTAAGGTT (α-гемоглобин)
TCTGCCGTTACTGCCCTGTGGGGGAAGGTG (β-гемоглобин)
Нуклео-
тид
xij gi
A T C
A 10/60 = 0,167
T 1/30 = 0,0333 13/60 = 0,217
C 2/30 = 0,0667 3/30 = 0,100 15/60 = 0,250
G 1/30 = 0,0333 3/30 = 0,100 2/30 = 0,0667 22/60 = 0,367
<math>

c = \frac {0,0333}{2 \cdot 0,167 \cdot 0,217} + \frac {0,0667}{2 \cdot 0,167 \cdot 0,250} + \frac {0,0333}{2 \cdot 0,167 \cdot 0,367} </math>

<math>

\ + \frac {0,1}{2 \cdot 0,217 \cdot 0,250} + \frac {0,1}{2 \cdot 0,217 \cdot 0,367} + \frac {0,0333}{2 \cdot 0,250 \cdot 0,367} = 0,257; </math>

<math>b = 0,5 \cdot \left( 1 - 0,167^2 - 0,217^2 - 0,250^2 - 0,367^2 + 0,4^2/0,257 \right) =

0,622.</math>

<math>d = -0,622 \cdot \ln \left( 1 - \frac {0,4}{0,622} \right) = 0,641.</math>

В некоторых источниках дистанцией Тадзимы-Нея называется расчёт по более простой формуле

<math>d = - b \ln \left( 1 - \frac{p}{b} \right),</math>

где

<math>b = 1 - \sum^{4}_{i=1} g^2_i. </math>

Для случая, когда все нуклеотиды встречаются с одинаковой частотой (gi = 0,25), эта формула совпадает с формулой Джукса-Кантора (b = 0,75).

Расчёты по этим формулам дают для того же примера

<math>\ b = 1 - 0,167^2 - 0,217^2 - 0,250^2 - 0,367^2 = 0,728.</math>
<math> d = -0,728 \cdot \ln \left( 1 - \frac {0,4}{0,728} \right) = 0,580.</math>

Примечания

Шаблон:Примечания

См. также

Ссылки

  • Provine W.B. Rise of the null selection hypothesis. In Cain A.J. and Provine W.B. 1991. Genes and ecology in history. In Berry R.J. et al. (eds) Genes in ecology: the 33rd Symposium of the British Ecological Society. Blackwell, Oxford, p15-23.

  1. Словарь терминов, используемых в молекулярной эволюции, популяционной генетике и молекулярной биологии Шаблон:Wayback. На сайте СНК кафедры общей химии БГМУ.
  2. T. H. Jukes, C. R. Cantor (1969) Evolution of protein molecules. In H. N. Munro, ed., Mammalian Protein Metabolism, pp. 21-132, Academic Press, New York.
  3. 3,0 3,1 Thomas H. Jukes (April 30, 1990) How Many Nudeotide Substitutions Actually Took Place? Current Contests: 33(18), p. 21.
  4. Шаблон:Cite web