Парсер Хабра: Машинный перевод для профи

среда, 18 июня 2014 г.

Машинный перевод для профи

В конце мая в Москве мы (ABBYY Language Services) собирали представителей индустрии перевода и локализации на круглый стол TAUS, чтобы всем вместе поговорить об автоматизации перевода: что это такое, какая от этого польза, что с этим делать и кому это нужно. Разговор получился продуктивным, чем мы очень довольны. Теперь мы расскажем вам об одном из докладов, который стал лучшим по итогам круглого стола и позволил его автору получить специальную награду TAUS Excellence Award.

Небольшая справка про TAUS

TAUS — авторитетная международная организация, которая с 2004 года занимается вопросами автоматизации перевода. Среди её членов не только мы, но и Google, eBay, Cisco, Intel, Adobe, Siemens и многие другие корпорации. Основатель организации — Яп ван дер Меер (на фото), практически живая легенда индустрии. Узнать больше о TAUS можно в нашем корпоративном блоге или на сайте организации.

Доклад, на котором мы остановимся, был посвящен теме машинного перевода (MT). Вообще, о машинном переводе говорили многие участники. Например, что его популярность не снижается, и многие обычные пользователи и компании начали активнее использовать его в своей работе – только через Яндекс.Перевод ежедневно проходит около 100 Гб информации.

Наш директор по инновациям Антон Воронов решил рассказать о том, что необходимо для продуктивного профессионального использования машинного перевода.

Мы уже писали, что на Западе успели оценить пользу от средств автоматизации, и многие организации и поставщики лингвистических услуг используют разные технологии в реальной работе над заказами: словари, глоссарии, базы памяти переводов, краудсорсинг и машинный перевод. Всё просто: представители индустрии поняли — несмотря на то, что объёмы контента во всём мире удваиваются почти ежегодно, темпы перевода остаются прежними. Очевидно, нужно повышать продуктивность работы.

Доказано на практике, что машинный перевод стоит использовать, если выполняются хотя бы два-три пункта из следующих требований:

У вас большие проекты с короткими сроками.

Нужно перевести так называемый «менее заметный» контент: техническая документация, пользовательский контент, базы знаний. Они предназначены для большого числа пользователей, но, как правило, очень велики по объему, а каждый раздел такого текстового массива (базы знаний, например) внимательно читает только небольшое число пользователей.

В качестве исходников у вас на руках тексты с чёткой структурой и высоким уровнем повторов;

В вашей команде отлажены комбинированные производственные процессы с гибкими требованиями к качеству — для разных проектов может требоваться разный уровень качества: какие-то тексты должны быть переведены максимально точно, для других же достаточно уловить общий смысл. И команда должна быть готова адаптировать процесс перевода к таким различиям. Предполагается, что при этом специалисты знакомы с тем, как работает постредактирование, краудсорсинг и другие операции, отличные от традиционной TEP-модели.

Антон Воронов (директор по инновациям ABBYY Language Services)

При этом нужно учитывать особенности системы: чтобы добиться высокого качества перевода от MT, требуется изрядное количество баз памяти переводов, выбор подходящего «движка» машинного перевода, его настройка на тип проекта и глубокая интеграция системы MT в ваш производственный процесс. Иначе чуда не произойдёт.

Как это выглядит на практике? Представьте, что вам нужно перевести много технических инструкций к определённому ПО. Во-первых, стоит запастись базами Translation Memory, которые составлялись при предыдущих переводах для этого ПО или остались после подобных проектов — чем больше, тем лучше. Затем имеет смысл определиться с подходящей системой машинного перевода — возможно, в прошлых проектах какая-то из них показала себя наилучшим образом — и поколдовать с её настройкой: скормить имеющиеся базы и параллельные тексты. В процессе перевода будьте готовы отслеживать работу машины: чтобы можно было оперативно внести корректировки, если что-то пойдёт не так.

В нашей практике доказала свою эффективность следующая схема производственного процесса:

Начните с терминологии — извлеките из исходного текста термины и сразу переведите их, это облегчит вам жизнь;

Не забывайте про лингвистические ресурсы — параллельные тексты, базы памяти переводов: они важны и для настройки движка, и для самого перевода;

Выбирайте для каждого проекта подходящие «движки» — для этого, разумеется, нужно постоянно следить за эффективностью работы всех используемых систем MT;

Тренируйте системы машинного перевода с помощью результатов, отвечающих требуемому уровню качества;

Кстати, о качестве — постоянно следите за качеством перевода: насколько результаты соответствуют ожиданиям;

Фиксируйте, что помогает сделать перевод того или иного сегмента лучше: в этом помогут метрики и проверка на соответствие терминологии;

Измеряйте все параметры, чтобы оценить, насколько сильно нужно доработать текст на этапе постредактирования, и корректируйте процесс соответствующим образом;

Обзаведитесь платформой, которая будет автоматически заниматься всем этим.

Как показал опыт, для максимальной автоматизации переводческого процесса в любой компании необходимо позаботиться об онлайн CAT-инструменте. В него нужно интегрировать модуль управления терминологией и системы MT. Также имеет смысл предусмотреть гибкую модель производства (на случай, если придётся что-то менять на ходу), возможности командной работы исполнителей в режиме реального времени, автоматическую регистрацию всех действий постредактора (это позволит найти «узкие места») и встроенный контроль качества.

В нашем случае этот полный цикл автоматизации выполняется на основе SmartCAT, про который писали раньше и который продолжаем активно развивать.

Немного коснулись и того, как можно тренировать «движки» машинного перевода. Чтобы ожидания от результатов MT оправдались, важно повторно использовать лингвистические ресурсы при настройке системы. Извлекайте терминологию, следите за её единообразием и отдавайте полученные глоссарии «движкам». Берите сегменты, которые уже переведены и прошли стадию постредактирования, и делитесь ими со своими системами MT: здесь важны последние варианты, поскольку они более актуальны.

Контроль качества на протяжении всего процесса работы с машинным переводом позволит избежать неприятных сюрпризов. История изменений текста, затраченное время и результаты автоматической проверки качества помогут выбрать сегменты, требующие пристального внимания при финальной оценке качества. А вообще, всякое может случится, поэтому будьте готовы к изменениям в процессе контроля качества при переводе MT.

Немного поговорили и о планах. Дело в том, что у нас получилось так глубоко погрузиться в процесс, поскольку мы сами давно и активно тестируем в работе различные системы автоматизации и методы работы в поисках высокой производительности и гибкого управления уровнем качества. Нам стало ясно, что для более эффективной работы с MT очень не хватает интегрированного модуля для извлечения терминологии, подсказок при поиске в уже загруженных базах, данных о контексте тех или иных терминов. И, конечно, больше проверок качества и больше метрик. Мы продолжаем внедрять это в наши продукты и собственные процессы.

Безусловно, лингвистические технологии продолжают развиваться. Но объемы контента растут еще быстрее, а существующие решения по-прежнему требуют участия в процессе профессиональных переводчиков. В общем, ближайшее будущее отрасли за совместной работой людей и машин.

This entry passed through the Full-Text RSS service — if this is your content and you're reading it on someone else's site, please read the FAQ at http://ift.tt/jcXqJW.

Парсер Хабра

...

среда, 18 июня 2014 г.

Машинный перевод для профи

Комментариев нет:

Отправить комментарий

...

среда, 18 июня 2014 г.

Машинный перевод для профи

Комментариев нет:

Отправить комментарий

среда, 18 июня 2014 г.