Машинный перевод презентация

Содержание


Машинный перевод
 Лидия Михайловна Пивоварова
 Системы понимания текстаВведенние
 Машинный перевод – автоматический (без участия человека) перевод с одногоСожержание
 Основные подходы
 Перевод, основанный на правилах
 Перевод, основанный на машинномПравила vs. статистикаПеревод по правилам
 Морфологический анализ
 Синтез групп (именные, глагольные и др.)
Статистический МП
 Использует большие параллельные двуязычные корпуса N-грамм
 Поиск наиболее подходящегоСожержание
 Основные подходы
 Перевод, основанный на правилах
 прямой перевод
 трансфер
 интерлингва
Основные подходы
 Direct, transfer, interlinguaСожержание
 Основные подходы
 Перевод, основанный на правилах
 прямой перевод
 трансфер
 интерлингва
Прямой перевод
 Пословный перевод (word-by-word)
 Никаких промежуточных структур помимо морфологии
 ПослеПравилаПрямой перевод
 Нет сложных лингвистических теорий и синтаксического анализа
 Использование синтаксическойСлишком простая модельСодержание
 Основные подходы
 Перевод, основанный на правилах
 прямой перевод
 трансфер
 интерлингва
Система типа  TRANSFERОсновные идеи
 Применяются знания о различиях между языками
 Этапы:
 Синтаксический анализ
ПравилаТрансфер лексики
 Лексические правила
 Двуязычные словари
 Т.е. сложность по сравнению сПример: SYSTRAN
 SYSTRAN = PROMT
 in the world			in Russia
 Более 90%SYSTRAN: комбинация прямого перевода и трансфера
 Анализ
 Морфологический анализ, части речи
Пример: ПРОМТ
 Система типа TRANSFER, но вместо последовательного TRANSFER’a – иерархическиПромт: трансфер на разных уронях
 TRANSFER на морфологическом уровне 
 входнаяСловари
 Генеральный словарь 
 Специализированные словари 
 Пользовательские словари
 Чем ужеТрансфер
 Глубокое лингвистическое знание – лучше качество перевода
 Компоненты анализа иСодержание
 Основные подходы
 Перевод, основанный на правилах
 прямой перевод
 трансфер
 интерлингва
Система типа  INTERLINGUATransfer vs. interlinguaСожержание
 Основные подходы
 Перевод, основанный на правилах
 Перевод, основанный на машинномСтатистический перевод
 Основа - параллельный корпус
 Вероятности назначаются подсчетом наиболее вероятногоВероятностная модель
 Исходная цепочка S преобразуется в такую цепочку T целевогоЯзыковая модель 
 Правильный порядок слов
 Некоторые идеи грамматики
 Вычисляется сМодель перевода
 p(f|e) – вероятность перевода строки (в идеале – предложения)Содержание
 Основные подходы
 Перевод, основанный на правилах
 Перевод, основанный на машинномBilingual Evaluation Understudy (BLEU)
 Требуется тестовое множество, переведенное человеком
 Оценивается близостьИсточники
 D. Jurafsky, J. H. Martin Speech and Language Processing –



Слайды и текст этой презентации
Слайд 1
Описание слайда:
Машинный перевод Лидия Михайловна Пивоварова Системы понимания текста


Слайд 2
Описание слайда:
Введенние Машинный перевод – автоматический (без участия человека) перевод с одного языка на другой Сферы применения: большие объемы информации и/или высокие требования к скорости перевода: Документация Новости Военные сводки Интернет-сайты, многоязычный поиск Справочная информация (рецепты, объявления, адреса) Основная цель: быстро понять основное содержание сообщения на иностранном языке Не замена ручному переводу; можно даже сказать – другая задача

Слайд 3
Описание слайда:
Сожержание Основные подходы Перевод, основанный на правилах Перевод, основанный на машинном обучении Оценка машинного перевода

Слайд 4
Описание слайда:
Правила vs. статистика

Слайд 5
Описание слайда:
Перевод по правилам Морфологический анализ Синтез групп (именные, глагольные и др.) Синтаксический анализ Синтез предложений

Слайд 6
Описание слайда:
Статистический МП Использует большие параллельные двуязычные корпуса N-грамм Поиск наиболее подходящего перевода реализован специальной вероятностной моделью

Слайд 7
Описание слайда:
Сожержание Основные подходы Перевод, основанный на правилах прямой перевод трансфер интерлингва Перевод, основанный на машинном обучении Оценка машинного перевода

Слайд 8
Описание слайда:
Основные подходы Direct, transfer, interlingua

Слайд 9
Описание слайда:
Сожержание Основные подходы Перевод, основанный на правилах прямой перевод трансфер интерлингва Перевод, основанный на машинном обучении Оценка машинного перевода

Слайд 10
Описание слайда:
Прямой перевод Пословный перевод (word-by-word) Никаких промежуточных структур помимо морфологии После перевода слов – простое переупорядочивание в соответствии со знанием о языке (например, в английском прилагательное идет до существительного, во французском и испанском – после) Используемое знание: морфологическая структура языка и локальные правила перевода слов

Слайд 11
Описание слайда:
Правила

Слайд 12
Описание слайда:
Прямой перевод Нет сложных лингвистических теорий и синтаксического анализа Использование синтаксической и лексической похожести между двумя языками «Надежность» - можно переводить даже неполные предложения Словари – наиболее важный компонент

Слайд 13
Описание слайда:
Слишком простая модель

Слайд 14
Описание слайда:
Содержание Основные подходы Перевод, основанный на правилах прямой перевод трансфер интерлингва Перевод, основанный на машинном обучении Оценка машинного перевода

Слайд 15
Описание слайда:
Система типа TRANSFER

Слайд 16
Описание слайда:
Основные идеи Применяются знания о различиях между языками Этапы: Синтаксический анализ Трансфер: синтаксическая структура исходного языка трансформируется в синтаксическую структуру целевого языка Синтез текста на целевом языке по синтаксической структуре

Слайд 17
Описание слайда:
Правила

Слайд 18
Описание слайда:
Трансфер лексики Лексические правила Двуязычные словари Т.е. сложность по сравнению с прямым переводом возрастает

Слайд 19
Описание слайда:
Пример: SYSTRAN SYSTRAN = PROMT in the world in Russia Более 90% рынка Доход в 2007 году ~13 млн евро Акции торгуются на бирже

Слайд 20
Описание слайда:
SYSTRAN: комбинация прямого перевода и трансфера Анализ Морфологический анализ, части речи Сборка словосочетаний Поверхностный синтаксис Трансфер Перевод идиом Снятие неоднозначности (word sense disambiguation) Выбор предлогов по глаголу Синтез Большой двуязычный словарь Переупорядочивание Синтез морфологии

Слайд 21
Описание слайда:
Пример: ПРОМТ Система типа TRANSFER, но вместо последовательного TRANSFER’a – иерархически взаимосвязанные TRANSFER’ы для разных единиц перевода: Уровень лексических единиц Уровень групп Уровень простых предложений Уровень сложных предложений

Слайд 22
Описание слайда:
Промт: трансфер на разных уронях TRANSFER на морфологическом уровне входная морф. инф.  выходная морф. инф. TRANSFER на уровне групп Основа – формальные сетевые грамматики При анализе соединение синтаксических единиц в группы  структура в терминах непосредственных составляющих  синтез лексических единиц с наследуемыми значениями морф. признаков

Слайд 23
Описание слайда:
Словари Генеральный словарь Специализированные словари Пользовательские словари Чем уже тематика, тем лучше качество перевода

Слайд 24
Описание слайда:
Трансфер Глубокое лингвистическое знание – лучше качество перевода Компоненты анализа и синтеза могут использоваться для других языковых пар (теоретически) Тем не менее, создание систем машинного перевода очень сложно и трудоемко, сами системы громоздкие и сильно завязанные на конкретную пару языков

Слайд 25
Описание слайда:
Содержание Основные подходы Перевод, основанный на правилах прямой перевод трансфер интерлингва Перевод, основанный на машинном обучении Оценка машинного перевода

Слайд 26
Описание слайда:
Система типа INTERLINGUA

Слайд 27
Описание слайда:
Transfer vs. interlingua

Слайд 28
Описание слайда:
Сожержание Основные подходы Перевод, основанный на правилах Перевод, основанный на машинном обучении Оценка машинного перевода

Слайд 29
Описание слайда:
Статистический перевод Основа - параллельный корпус Вероятности назначаются подсчетом наиболее вероятного варианта перевода Оценки вероятности зависят от объема и качества обучающего корпуса Лингвистическая информация: разбиение на предложения, графематический анализ, морфология При наличии корпуса простейшая система перевода может быть сделана на 2 недели

Слайд 30
Описание слайда:
Вероятностная модель Исходная цепочка S преобразуется в такую цепочку T целевого языка, что: T = argmaxp(T|S) Теорема Байеса: T = argmaxp(S|T)p(T) Содержательная интерпретация: хороший перевод – это сочетание точности передачи информации и правильности целевого языка; нужна модель перевода p(S|T) (вычисляется по пераллельному корпусу) и модель целевого языка p(T) (вычисляется по одноязычному корпусу)

Слайд 31
Описание слайда:
Языковая модель Правильный порядок слов Некоторые идеи грамматики Вычисляется с помощью n-грамм:

Слайд 32
Описание слайда:
Модель перевода p(f|e) – вероятность перевода строки (в идеале – предложения) f строкой e. Выравнивание, т.е. нахождение соответствия между f строкой e – отдельная задача. a – показатель качества выравнивания (alignment)

Слайд 33
Описание слайда:
Содержание Основные подходы Перевод, основанный на правилах Перевод, основанный на машинном обучении Оценка машинного перевода

Слайд 34
Описание слайда:
Bilingual Evaluation Understudy (BLEU) Требуется тестовое множество, переведенное человеком Оценивается близость между машинным и человеческим переводом Взвешенное среднее числа совпадений N-грамм машинного перевода с переводом человека

Слайд 35
Описание слайда:
Источники D. Jurafsky, J. H. Martin Speech and Language Processing – 2009 – Chapter 25 A. Ittycheriah Statistical Machine Translation // Handbook of natural language processing, Second Edition Editor(s): Nitin Indurkhya; Fred J. Damerau, Goshen, Connecticut, USA – 2010 – pp. 409-422 Dan Jurafsky From Languages to Information. Lecture 16-17: Machine Translation - http://www.stanford.edu/class/cs124/ Дмитрий Кан Введение в машинный перевод - http://www.slideshare.net/dmitrykan/introduction-to-machine-translation-2911038 Денис Столяров Автоматический перевод на основе шаблонов -http://mathlingvo.ru/nlpseminar/archive/s_23 Елена Уфлянд Работа автоматического переводчика ПроМТ - http://mathlingvo.ru/nlpseminar/archive/s_3 Александр Гребеньков Работа автоматического переводчика - http://mathlingvo.ru/nlpseminar/archive/s_10


Скачать презентацию на тему Машинный перевод можно ниже:

Похожие презентации