Русская Википедия:Качество машинного перевода

Материал из Онлайн справочника
Перейти к навигацииПерейти к поиску

Шаблон:К удалению

В настоящее время, несмотря на большие достижения в разработке программ для автоматизации перевода, машинный перевод все ещё не способен выдавать адекватный и эквивалентный результат, поэтому возникает вопрос об оценке текстов, переведенных с помощью автоматизированного компьютерного перевода [1].

Оценка качества перевода

На сегодняшний день существуют различные системы машинного перевода, некоторые из них выполняют перевод на довольно высоком уровне. Но для того, чтобы выявить, какие именно системы подходят для работы с теми или иными языками или типами текстов, необходимо осуществлять тестирование этих систем и анализировать качество перевода на основе больших фрагментов текстов.

Японский ученый Макато Нагао, специалист по компьтерным наукам, предложил шкалу оценки машинного перевода на основе лингвостилистического анализа, от пяти до одного балла [2].

  • 1 балл — смысл предложения понятен и не возникает никаких вопросов, грамматика, словоупотребление и стиль соответствуют общей структуре текста и не требуют постредактирования
  • 2 балла — смысл предложения понятен, но возникают большие проблемы с грамматикой, словоупотреблением и стилем.
  • 3 бала — общий смысл предложения понятен, но смысл некоторых его частей вызывает сомнение из-за неправильного грамматического строя.
  • 4 балла — присутствуют ошибки словоупотребления и стилистики, требуется обращение к оригиналу.
  • 5 баллов — в предложении имеется большое количество грамматических, словоупотребительных и стилистических ошибок, смысл предложения с трудом можно понять после внимательного изучения.

Для автоматической оценки работы машинных переводчиков зачастую используются показатель Word Error Rate или WER, метрики BLEU и NIST. Эти инструменты позволяют успешно сравнивать работу разных систем МП и оценивать улучшения в работе конкретной системы [3].

BLEU

Метрика BLEU (Bilingual Evaluation Understudy) на данный момент самая популярная в современной оценке МП. Позволяет учитывать не только точность перевода отдельных слов, но и цепочек слов (N-граммы) [МП: обзор методов].

Метрика BLEU была разработана сотрудниками компании IBM и является одной из самых простых в использовании метрик оценки машинного перевода. Алгоритм BLEU оценивает качество перевода по шкале от 0 до 100 на основании сравнения машинного перевода с человеческим и поиска общих слов и фраз. Основная идея разработчиков метрики состоит в том, что чем лучше машинный перевод, тем больше он должен быть похож на человеческий [4].

Лучше всего такая метрика работает не на уровне предложений, а на уровне большого текста. На маленьком объёме текста метрика зачастую обнуляется из-за отсутствия совпадающих 4-грамм и работает некорректно. Существуют также доработанные варианты метрики, которые подходят для сравнения на уровне предложения.

NIST

Метрика NIST была разработана на основе BLEU, но имеет одно фундаментальное отличие. Если для получения высокой оценки BLEU важнее правильный порядок слов, то NIST выше оценивает правильный выбор лексики [5].

WER

Word Error Rate, или взвешенное расстояние Левенштейна, позволяет измерять расстояние между машинным и образцовым переводом так же, как мы измеряем расстояние между словарным словом и словом с опечаткой (считая символами не буквы, а целые слова) [МП: обзор методов]. По сути WER измеряет минимальное количество изменений, которые необходимо сделать, чтобы из результата работы МП получить эталонный перевод [6]. При этом WER может учитывать различные варианты эталонного перевода с разным порядком слов [5].

Примечания

Шаблон:Примечания

Ссылки

  • [1] Шаблон:Wayback
  • [2] Шаблон:Wayback
  • [Vilar D., Jia Xu, D’Haro L., Ney H. Error Analysis of Machine Translation Output. In International Conference on Language Resources and Evaluation, pages 697—702, Genoa, Italy, 2006.]
  • [Машинный перевод: обзор методов и оценка качества. URL: http://lpcs.math.msu.su/~pentus/mfk2015/Lecture07_20151021.pdf Шаблон:Wayback]
  • [Молчанов А. Статистические и гибридные методы перевода в технологиях компании ПРОМТ. М., 2013.]
  • [Koehn, P. Statistical Machine Translation. Cambridge, UK, 2010.]
  • [Zhang Y., Vogel S., Waibel A. Interpreting BLEU/NIST Scores: How Much Improvement do We Need to Have a Better System? // Proceedings of the Fourth International Conference on Language Resources and Evaluation (LREC-2004), Lisbon, Portugal, 2004.]

Шаблон:Изолированная статья

  1. Шаблон:Cite web
  2. Шаблон:Iw
  3. [Vilar, 2006]
  4. [Молчанов, 2013]
  5. 5,0 5,1 [Zhang, 2004]
  6. [Koehn, 2010]