Русская Википедия:METEOR

Материал из Онлайн справочника
Перейти к навигацииПерейти к поиску

METEOR (Metric for Evaluation of Translation with Explicit ORdering (2004)) — метрика для оценки качества машинного перевода. Метрика базируется на использовании n-грамм и ориентирована на использование статистической и точной оценки исходного текста. В отличие от метрики Шаблон:Iw, данная метрика использует функции сопоставления синонимов вместе с точным соответствием слов. Метрика была разработана, чтобы решить проблемы, которые были найдены в более популярной метрике BLEU, а также создать хорошую корреляцию с оценкой экспертов на уровне словосочетаний или предложений.

Файл:METEOR-alignment-a.png
Пример выравнивания (a).

В результате запуска метрики на уровне словосочетаний корреляция с человеческим решением составляла 0.964, тогда как метрика BLEU составляла 0.817 на том же наборе входных данных. На уровне предложения максимальная корреляция с оценкой экспертов была 0.403Шаблон:Ref.

Файл:METEOR-alignment-b.png
Пример выравнивания (b).

Алгоритм

Как и в метрике BLEU, основная единица для оценки — предложение, алгоритм сначала проводит выравнивание текста между двумя предложениями, строкой эталонного перевода и строкой входного текста для оценивания (см. рисунки а и б). Данная метрика использует несколько этапов установления соответствия между словами машинного перевода и эталонного перевода для сопоставления двух строк:

  1. Точное установление соответствия — определяются строки, которые являются идентичными в эталонном и машинном переводе.
  2. Установление соответствия основ — проводится стемминг (выделение основы слова), и определяются слова с одинаковым корнем в эталонном и машинном переводе.
  3. Установление соответствия синонимов — определяются слова, которые являются синонимами в соответствии с WordNet.

Выравнивание — это множество соответствий между n-gram-ами. На соответствие налагается следующее ограничение: каждый n-грамм в предложении-кандидате должен соответствовать одному или ни одному n-gram-у в эталонном предложении. Если есть два выравнивания с тем же количеством совпадений, то выбирается то, которое имеет наименьшее количество пересечений для совпадений. В данном случае будет выбран вариант (а). Этапы сравнения с эталонными переводами выполняются последовательно, и на каждом из них ко множеству соответствий добавляются только те n-gram-ы, которые не имели соответствия на предыдущих этапах. Как только будет пройден последний этап, окончательный n-gram P вычисляется по следующей формулеШаблон:Ref:

Пример пары слов, которые будут сопоставлены вместе
Этап сравнения Кандидат Эталонный перевод Совпадение
Точное совпадение good good Yes
Стемминг goods good Yes
Синоним well good Yes
<math>P = \frac{m}{w_{t}},</math>

где <math>m</math> — количество n-грамм в машинном переводе, которые также были найдены в эталонном переводе, а <math>w_{t}</math> — количество n-грамм в машинном переводе. N-gram <math>R</math> (общий n-gram для эталонных переводов) вычисляется по следующей формуле:

<math>R = \frac{m}{w_{r}},</math>

где <math>w_{r}</math> — количество n-грамм в эталонном переводе. Точность и полнота комбинируются, используя формулу гармонического среднего, в которой вес полноты в 9 раз больше веса точности:

<math>F_{mean} = \frac{10PR}{R+9P}</math>[1]

Данная формула используется только для сравнения одиночных слов, которые совпали в эталонном и машинном переводе. Для того чтобы учитывать еще и словосочетания, которые совпадают, используется так называемый штраф <math>p</math>. Для этого n-gram объединяют в несколько возможных групп. Штраф <math>p</math> вычисляется по следующей формуле:

<math>p = 0.5 \left ( \frac{c}{u_{m}} \right )^3,</math>

где c — число групп n-gram, а <math>u_{m}</math> — количество n-грамм, которые объединили в группы Тогда финальный показатель качества вычисляется по следующей формуле:

<math>M = F_{mean} (1 - p)</math>

Примеры

Эталонный перевод: the cat sat on the mat
Машинный перевод: on the mat sat the cat
Score: 0.5000 = Fmean: 1.0000 * (1 - Penalty: 0.5000)
Fmean: 1.0000 = 10 * Precision: 1.0000 * Recall: 1.0000 / (Recall: 1.0000 + 9 * Precision: 1.0000)
Penalty: 0.5000 = 0.5 * (Fragmentation: 1.0000 ^3)
Fragmentation: 1.0000 = Chunks: 6.0000 / Matches: 6.0000
Эталонный перевод: the cat sat on the mat
Машинный перевод: the cat sat on the mat
Score: 0.9977 = Fmean: 1.0000 * (1 — Penalty: 0.0023)
Fmean: 1.0000 = 10 * Precision: 1.0000 * Recall: 1.0000 / (Recall: 1.0000 + 9 * Precision: 1.0000)
Penalty: 0.0023 = 0.5 * (Fragmentation: 0.1667 ³)
Fragmentation: 0.1667 = Chunks: 1.0000 / Matches: 6.0000
Эталонный перевод: the cat sat on the mat
Машинный перевод: the cat was sat on the mat
Score: 0.9654 = Fmean: 0.9836 * (1 - Penalty: 0.0185)
Fmean: 0.9836 = 10 * Precision: 0.8571 * Recall: 1.0000 / (Recall: 1.0000 + 9 * Precision: 0.8571)
Penalty: 0.0185 = 0.5 * (Fragmentation: 0.3333 ^3)
Fragmentation: 0.3333 = Chunks: 2.0000 / Matches: 6.0000

См. также

Примечания

Шаблон:Примечания

Литература

  • Banerjee, S. and Lavie, A. (2005) «METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments» in Proceedings of Workshop on Intrinsic and Extrinsic Evaluation Measures for MT and/or Summarization at the 43rd Annual Meeting of the Association of Computational Linguistics (ACL-2005), Ann Arbor, Michigan, June 2005
  • Lavie, A., Sagae, K. and Jayaraman, S. (2004) «The Significance of Recall in Automatic Metrics for MT Evaluation» in Proceedings of AMTA 2004, Washington DC. September 2004
  • Шаблон:Note Banerjee, S. and Lavie, A. (2005)

Ссылки

Шаблон:Изолированная статья