Русская Википедия:Гибридный машинный перевод

Гибридный машинный перевод (Hybrid machine translation — HMT) — интеграция разных подходов машинного перевода из возможных вариантов МП:^[1]

Rule-based machine translation (RBMT) — Машинный перевод на основе правил.
Corpus-based machine translation (CBMT) — Машинный перевод на корпусах текстов.
- Example-based machine translation (EBMT) Машинный перевод на примерах.
- Statistical machine translation (SMT) — Статистический машинный перевод.

Ожидается, что с помощью гибридной архитектуры удастся объединить преимущества этих подходов.^[1] Машинный перевод на сегодняшний день представлен двумя основными технологиями: Статистический машинный перевод (Statistical machine translation — SMT) и Машинный перевод на основе правил (Rule-Based Machine Translation — RBMT).^[2]

Разработчики software Hybrid MT

AppTek HMT^[3] «TranSphere®» — полная интеграция SMT и RBMT методологий.
Asia Online^[4] «SAIC’s OmnifluentTM Human Language Technology».
LinguaSys^[5] «Carabao Machine Translation engine».
Systran^[6]^[7] «SYSTRAN’s hybrid engine»
Polytechnic University of Valencia^[8]
PROMT^[2] «PROMT DeepHybrid»^[9]

Подходы

Многоуровненвый

Этот подход к гибридному машинному переводу предполагает параллельное выполнение нескольких систем машинного перевода. Окончательный результат получается путем объединения результатов всех подсистем. Чаще всего в этих системах используются подсистемы статистического и основанного на правилах перевода, но были изучены и другие комбинации. Например, исследователи из Университета Карнеги-Меллона добились определенного успеха, объединив подсистемы перевода на основе примеров , передачи , знаний и статистического перевода в одну систему машинного перевода.

Статистическая генерация правил

Этот подход включает использование статистических данных для создания лексических и синтаксических правил. Затем ввод обрабатывается с использованием этих правил, как если бы это был переводчик на основе правил . Этот подход пытается избежать сложной и отнимающей много времени задачи создания набора всеобъемлющих, детализированных лингвистических правил путем извлечения этих правил из учебного корпуса. Этот подход по-прежнему страдает от многих проблем нормального статистического машинного перевода , а именно от того, что точность перевода будет сильно зависеть от сходства входного текста с текстом обучающего корпуса. В результате этот метод имел наибольший успех в приложениях, ориентированных на конкретную предметную область, и имеет те же трудности с адаптацией предметной области, что и многие системы статистического машинного перевода.

Многопроходный

Этот подход предполагает последовательную обработку ввода несколько раз. Наиболее распространенный метод, используемый в системах многопроходного машинного перевода, - это предварительная обработка ввода с помощью системы машинного перевода на основе правил . Выходные данные основанного на правилах препроцессора передаются в систему статистического машинного перевода , которая производит окончательный результат. Этот метод используется для ограничения объема информации, которую необходимо учитывать статистической системе, что значительно снижает требуемую вычислительную мощность. Это также устраняет необходимость в системе, основанной на правилах, быть полной системой перевода для языка, что значительно снижает количество человеческих усилий и труда, необходимых для создания системы.

На основе уверенности

Этот подход отличается от других гибридных подходов тем, что в большинстве случаев используется только одна технология перевода. Для каждого переведенного предложения создается показатель достоверности, на основе которого можно принять решение, попробовать ли вторичную технологию перевода или продолжить работу с исходным переводом. Omniscien Technologies - одна из компаний, использующих этот подход, при этом NMT является основной технологией, но возвращается к SMT, если показатель достоверности ниже порогового значения или длина предложения очень короткая (например, 1 или 2 слова). SMT также используется, когда общие шаблоны ошибок, такие как несколько повторяющихся слов, появляются последовательно, как это часто бывает с NMT, когда механизм внимания сбит с толку.

Гибридная технология «SMT и RBMT»

Гибридная технология перевода предполагает использование статистических методов для построения словарных баз автоматическим путём на основе параллельных корпусов, формирования нескольких возможных переводов как на лексическом уровне, так и на уровне синтаксической структуры предложения выходного языка, применения постредактирования в автоматическом режиме и выбор лучшего (наиболее вероятного) перевода из возможных на основе языковой модели, построенной по определенному корпусу выходного языка.^[2]

Hybrid (SMT + RBMT) System различаются: (п.2.4.3^[4])

Rule-based MT с пост-обработкой статистического подхода.
Statistical MT с предварительной обработкой по Rule-based подходу.
Полная интеграция RBMT и SMT.^[3]

Статистический МП стремится использовать лингвистические данные, а системы с «классическим» подходом, основанном на правилах, применяют статистические методы.^[2] Добавление некоторых "сквозных" правил, то есть создание гибридных систем, несколькоШаблон:Сколько улучшает качество переводов, особенно при недостаточном объеме входных данных, используемых при построении индексных файлов хранения лингвистической информации машинного переводчика, базирующегося на N-граммах.^[10]

Объединение RBMT и статистического машинного перевода:

Лингвистический анализ входного предложения;
Порождение вариантов перевода;
Использование статистических технологий;
Оценка и выбор лучшего варианта перевода с использованием Языковой модели.^[11]^[12]^[13]

Этапы Гибридной технологии SMT и RBMT:^[2]

Обучение RBMT на основе параллельного корпуса с использованием статистических технологий;
Эксплуатация на основе натренированной системы.

Архитектура Гибридной технологии «SMT и RBMT»

В гибридном машинном переводе RBMT-система дополнена двумя компонентами^[14]: модулем статистического постредактирования и модулем языковых моделей. Статистическое постредактирование позволяет сгладить RB-перевод, приближая его к естественному языку и при этом сохраняя четкую структуру синтезируемого текста. Языковые модели используются для оценки гладкости и грамматической правильности вариантов перевода, порождаемых гибридной системой.

Типичная архитектура HMT:^[14]

Параллельный корпус;
Обучение;
Языковая модель;
Данные для постредактирования;
Правила синтеза;
Словарь терминологии.
Эксплуатация:
- — Гибридный перевод.

Принцип работы HMT

Совмещение, казалось бы, несовместимых методов перевода, а именно классической технологии машинного перевода Машинный перевод на основе правил (Rule-Based MT) и Статистический машинный перевод (Statistical MT) можно реализовать в гибридной технологии перевода.^[15] Кардинальное отличие нового решения состоит в том, что вместо одного варианта перевода программа порождает множество переводов, число которых у одного предложения, в зависимости от многозначности слов, конструкций, и результатов статистической обработки, может доходить до нескольких сотен. Далее вероятностная модель языка позволяет выбрать самый вероятный из предложенных вариантов.

Алгоритм работы типичной HMT:^[2]

Создание терминологического словаря из параллельных текстов для RBMT автоматическим путём.
Порождение всех возможных вариантов перевода на основе:
- — лексических вариантов;
- — вариантов синтеза разных конструкций;
- — применения постредактирования.
Выбор лучшего варианта, через реализованную Языковую модель.

Преимущества и недостатки

Что даёт гибридная технология перевода?

Быструю автоматическую настройку на основе Translation Memories заказчика;
Терминологическую точность перевода, а также единство стиля;
Получение дополнительных полезных данных — двуязычного терминологического словаря.

Преимущества и недостатки Машинного перевода на основе правил

Преимущества RBMT:^[16]

Сохраняются:

— синтаксическая и морфологическая точность;
— стабильность и предсказуемость результата;
— возможность настройки на предметную область.

Недостатки RBMT:

— трудоемкость и длительность разработки;
— необходимость поддерживать и актуализировать лингвистические БД;
— «машинный акцент» при переводе.

Недостатки нивелируются за счет использования параллельных корпусов и статистических методов.

— автоматическая настройка лингвистических баз данных (быстрое и качественное извлечение терминологии),
— исчезает «машинный» акцент при переводе (варианты синтеза и постредактирование).

Преимущества и недостатки Статистических систем перевода

Преимущества SMT:^[17]

— быстрая настройка;
— легко добавлять новые направления перевода;
— гладкость перевода.

Недостатки SMT:

— «Дефицит» параллельных корпусов;
— многочисленные грамматические ошибки;
— нестабильность перевода.

См. также

Примечания

Шаблон:Примечания

Шаблон:Подходы к машинному переводу Шаблон:Обработка естественного языка

[Hybrid_iaiRef-1] 1,0 ^1,1 Шаблон:Cite web

[ritconfRef-2] 2,0 ^2,1 ^2,2 ^2,3 ^2,4 ^2,5 Шаблон:Cite web

[AppTekRef-3] 3,0 ^3,1 Шаблон:Cite web

[AsiaOnlineRef-4] 4,0 ^4,1 http://nlp.amrita.edu:8080/project/mhrd/ms/Final_Thesis.pdf Шаблон:Недоступная ссылка

[LinguaSysRef-5] Шаблон:Cite web

[systranRef-6] Шаблон:Cite web

[systransoftRef-7] Шаблон:Cite web

[PolytechnicRef-8] ttp://web.iti.upv.es/~fcn/Students/ta/Talk-ToniL-PRACT_ISSUES-13_4p.pdf Шаблон:Недоступная ссылка

[PROMTDeepHybridRef-9] Шаблон:Cite web

[landeRef-10] Шаблон:Cite web

[kholodRef-11] Шаблон:Cite web

[stavsuRef-12] Шаблон:Cite web

[fizmathimRef-13] Шаблон:Cite web

[Hybrid_promtRef-14] 14,0 ^14,1 Шаблон:Cite web

[promtpressRef-15] Шаблон:Cite web

[promt_RBMTRef-16] Шаблон:Cite web

[autogenerated1-17] Шаблон:Cite web

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

Партнерские ресурсы
Криптовалюты	Обмен криптовалют - www.bestchange.ru Криптовалютная биржа CoinEx Криптовалютная биржа Binance HIVE OS - операционная система для майнинга e4pool - Мультивалютный пул для майнинга.
Магазины	AliExpress — глобальная виртуальная (в Интернете) торговая площадка, предоставляющая возможность покупать товары производителей из КНР; computeruniverse.net - Интернет-магазин компьютеров(Промо код 5 Евро на первую покупку:FWWC3ZKQ);
Хостинг	DigitalOcean - американский провайдер облачных инфраструктур, с главным офисом в Нью-Йорке и с центрами обработки данных по всему миру;
Разное	Викиум - Онлайн-тренажер для мозга Like Центр - Центр поддержки и развития предпринимательства. Gamersbay - лучший магазин по бустингу для World of Warcraft. Ноотропы OmniMind N°1 - Усиливает мозговую активность. Повышает мотивацию. Улучшает память. Санкт-Петербургская школа телевидения - это федеральная сеть образовательных центров, которая имеет филиалы в 37 городах России. Lingualeo.com — интерактивный онлайн-сервис для изучения и практики английского языка в увлекательной игровой форме. Junyschool (Джунискул) – международная школа программирования и дизайна для детей и подростков от 5 до 17 лет, где ученики осваивают компьютерную грамотность, развивают алгоритмическое и креативное мышление, изучают основы программирования и компьютерной графики, создают собственные проекты: игры, сайты, программы, приложения, анимации, 3D-модели, монтируют видео. Умназия - Интерактивные онлайн-курсы и тренажеры для развития мышления детей 6-13 лет SkillBox - это один из лидеров российского рынка онлайн-образования. Среди партнеров Skillbox ведущий разработчик сервисного дизайна AIC, медиа-компания Yoola, первое и самое крупное русскоязычное аналитическое агентство Tagline, онлайн-школа дизайна и иллюстрации Bang! Bang! Education, оператор PR-рынка PACO, студия рисования Draw&Go, агентство performance-маркетинга Ingate, scrum-студия Sibirix, имидж-лаборатория Персона. «Нетология» — это университет по подготовке и дополнительному обучению специалистов в области интернет-маркетинга, управления проектами и продуктами, дизайна, Data Science и разработки. В рамках Нетологии студенты получают ценные теоретические знания от лучших экспертов Рунета, выполняют практические задания на отработку полученных навыков, общаются с экспертами и единомышленниками. Познакомиться со всеми продуктами подробнее можно на сайте https://netology.ru, линейка курсов и профессий постоянно обновляется. StudyBay Brazil – это онлайн биржа для португалоговорящих студентов и авторов! Студент получает уникальную работу любого уровня сложности и больше свободного времени, в то время как у автора появляется дополнительный заработок и бесценный опыт. Автор24 — самая большая в России площадка по написанию учебных работ: контрольные и курсовые работы, дипломы, рефераты, решение задач, отчеты по практике, а так же любой другой вид работы. Сервис сотрудничает с более 70 000 авторов. Более 1 000 000 работ уже выполнено. StudyBay – это онлайн биржа для англоязычных студентов и авторов! Студент получает уникальную работу любого уровня сложности и больше свободного времени, в то время как у автора появляется дополнительный заработок и бесценный опыт.