Автоматическая обработка текстов на естественном языке презентация

Содержание


Презентации» Образование» Автоматическая обработка текстов на естественном языке
Автоматическая обработка текстов на естественном языкеГрафемный анализ текстовой информацииТокенизация = автоматический графемный анализ =
 Процедура выделения в тексте слов,Задачи токенизации
 Разделение входного текста на элементы (слова, разделители и т.д.);
Сложности токенизации
 обработка дефиса и пробела; 
 выделение составных предлогов, устойчивыхТокенизация
 Межсловный дефис:
 объединительная функция (буква)? 
 	кто-то, где-нибудь, давным-давно, бакш-таг,Примерный перечень элементов текста, требующих специальной обработки
 Примерный перечень элементов текста,Морфологический анализ текстовой информацииМорфологический анализ –
 преобразование текста, при котором каждая словоформа текста представленаВ корпусной лингвистике процедуру морфологического анализа и разметки текста называют тегированием,Морфологический анализ: процедуры
 Лемматизация, т.е. сведение различных словоформ к исходной форме,Морфологический анализ: этапы (1)
 Последовательное отделение от конца словоформы возможных афиксов;Морфологический анализ: этапы (2)
 Определение совместимости информации об аффиксах и основах
Морфологический анализ: этапы (3)
 Каждой морфеме присваивается некоторый вес. Вариант разбора,Система весов морфем
 Междометия имеют более высокий вес, нежели существительные, этоДва подхода к морф. анализу текста: 
 словарный, при котором задаѐтсяСловарный подход к морфологическому анализу
 Наиболее лингвистический метод
 Дает максимально полныйСловарный подход к морфологическому анализу: минусы
 Проблема большого объема словаря, которыйБессловарный подход к морфологическому анализу: аналогия
 Типичный способ решения этой проблемыБессловарный подход к морфологическому анализу: плюсы
 + Более экономичный, т.к. неБессловарный подход к морфологическому анализу: минусы
 Не имеет выхода к семантическомуОмонимия как основная проблема морфлогического анализа 
 На завод привезли стекло.
Проблема морфологической омонимии
 Использование скрытой Марковской модели:
 	Для каждого слова, входящегоМодель снятия морфологической омонимии на основе нормализующих подстановок и позиций соседнихМодель снятия морфологической омонимии на основе нормализующих подстановок и позиций соседнихАлгоритмы для улучшения морф. анализа
 вероятностно-статистические 
 основанные на продукционных правилах,Большинство вероятностно-статистических алгоритмов исп. два источника информации:
 Словарь словоформ языка, вМодели встречаемости возможных последовательностей лексико-грам. классов
 биграмная, 
 триграмная 
 квадриграмная.Алгоритмы, основанные на продукционных правилах
 Используют правила собранные автоматически с корпусаВероятностно-статистических алгоритмы
 Информация о словоформах языка и о встречаемости всех возможныхРезультативность
 Оба подхода дают примерно одинаковый результат.
 При их использовании раздельноСтемминг и лемматизацияЛемматизация
 Специфическая задача морфологического анализа – это лемматизация, т.е. процесс образованияЛемматизация
 позволяет исследователю выделять и изучать все варианты отдельной лексемы безсостоит в нахождении стема (основы) слова. 
 состоит в нахождении стемаСтемминг применим к языкам, которые реализуют словоизменение через афиксы
 Стемминг применимСтеммером пользуются для поиска текстов с имитацией учета морфологии.
 Стеммером пользуютсяПринцип работы стемминга применяется в поисковых машинах, позволяя производить поиск сДопускаемые при стемминге ошибки:
 Допускаемые при стемминге ошибки:
 Ошибки 1го рода:
Ошибки стемминга 2го рода - усечение формы дает слишком длинный стеммер,Стеммер Портера 
  Алгоритм стемминга, опубликованный Мартином Портером в 1980 году.Стемминг -это приближенный процесс, в ходе которого от слов отбрасываются окончания



Слайды и текст этой презентации
Слайд 1
Описание слайда:
Автоматическая обработка текстов на естественном языке


Слайд 2
Описание слайда:
Графемный анализ текстовой информации

Слайд 3
Описание слайда:
Токенизация = автоматический графемный анализ = Процедура выделения в тексте слов, чисел, а также нахождение границ устойчивых сочетаний и предложений. Выделяемые текстовые единицы – токены англ. tokenization, token

Слайд 4
Описание слайда:
Задачи токенизации Разделение входного текста на элементы (слова, разделители и т.д.); удаление нетекстовых элементов; выделение и оформление нестандартных (нелексических) элементов, например: элементов форматирования; структурных элементов текста; различных элементов текста, не являющихся словами; имен (имя, отчество), написанных инициалами; иностранных лексем, записанных латиницей и т.д.

Слайд 5
Описание слайда:
Сложности токенизации обработка дефиса и пробела; выделение составных предлогов, устойчивых оборотов, аналитических форм и др.; иноязычные фрагменты; нетекстовые элементы.

Слайд 6
Описание слайда:
Токенизация Межсловный дефис: объединительная функция (буква)? кто-то, где-нибудь, давным-давно, бакш-таг, брейд-вымпел, генерал-аншеф или разделительная функция (знак препинания)? старик-художник, словарь‑справочник, девочка-пионерка Пробел: объединительная функция (буква)? сто двадцать пять или разделительная функция? русский язык

Слайд 7
Описание слайда:
Примерный перечень элементов текста, требующих специальной обработки Примерный перечень элементов текста, требующих специальной обработки

Слайд 8
Описание слайда:
Морфологический анализ текстовой информации

Слайд 9
Описание слайда:
Морфологический анализ – преобразование текста, при котором каждая словоформа текста представлена в виде пары <лемма + морфологическая характеристика>, где Лемма – это основная форма слова, Морфологическая характеристика указывает часть речи, падеж, род, число и т.д. соответствующей словоформы.

Слайд 10
Описание слайда:
В корпусной лингвистике процедуру морфологического анализа и разметки текста называют тегированием, а результат – морфологически размеченным или аннотированным корпусом. В корпусной лингвистике процедуру морфологического анализа и разметки текста называют тегированием, а результат – морфологически размеченным или аннотированным корпусом.

Слайд 11
Описание слайда:
Морфологический анализ: процедуры Лемматизация, т.е. сведение различных словоформ к исходной форме, или лемме Стемминг – приведение разных словоформ к одной основе Частеречный тэгинг (pos-tagging), т.е. указание части речи для каждой словоформы в тексте Полный морфологический анализ - приписывание грамматических характеристик (граммем) словоформе

Слайд 12
Описание слайда:
Морфологический анализ: этапы (1) Последовательное отделение от конца словоформы возможных афиксов; оставшиеся части объявляются гипотетическими основами Поиск полученной основы на совпадение; или Каждая единица сравнивается со словарем основ, а оставшаяся правая часть объявляется гипотетическим окончанием Чередования внутри основы могут учитываться по-разному: включением в словарь нескольких видов основы (бег-/беж-) или заданием отдельной таблицы чередований

Слайд 13
Описание слайда:
Морфологический анализ: этапы (2) Определение совместимости информации об аффиксах и основах Разбор считается завершенным успешно, если всё слово было разобрано на морфемы и не осталось не разобранных букв. Программа накапливает все возможные варианты разбора

Слайд 14
Описание слайда:
Морфологический анализ: этапы (3) Каждой морфеме присваивается некоторый вес. Вариант разбора, набравший наибольший вес, считается оптимальным. После разбора программа формирует файл отчета, в который заносятся все слова с вариантами их разбора. Также производится подсчет статистики по введенному тексту.

Слайд 15
Описание слайда:
Система весов морфем Междометия имеют более высокий вес, нежели существительные, это делается во избежание разбора междометия как существительного. Вес варианта разбора может уменьшиться в случае, если в нем встречается много корней (т.к. удельный вес многокоренных слов в рус. яз. ниже, чем однокоренных). Если же морфема состоит из большого количества символов, то её вес увеличится (достопримечательность: чтобы система дальше не стала выделять приставку до, корни сто, меч)

Слайд 16
Описание слайда:
Два подхода к морф. анализу текста: словарный, при котором задаѐтся словарь словоформ или словарь основ и окончаний. Такие системы, как правило, базируются на Грамматическом словаре А.А. Зализняка; бессловарный, при котором задаѐтся список возможных окончаний (или псевдоокончаний) с приписанной им информацией о возможных грамматических значениях, а также используются вероятностно-статистические методы.

Слайд 17
Описание слайда:
Словарный подход к морфологическому анализу Наиболее лингвистический метод Дает максимально полный анализ словоформы Этот подход реализован, например, в системах машинного перевода ЭТАП (разрабатывавшиеся под руководством Ю.Д. Апресяна и основанные на модели «СМЫСЛ ↔ ТЕКСТ»), ПРОМТ.

Слайд 18
Описание слайда:
Словарный подход к морфологическому анализу: минусы Проблема большого объема словаря, который создается вручную Проблема анализа новых слов (для данной системы, то есть относительно используемого словаря) Не существует абсолютно полных словарей – лексика языка непрерывно пополняется Невозможно включить в словарь всю существующую терминологию, имена, фамилии и т.д.

Слайд 19
Описание слайда:
Бессловарный подход к морфологическому анализу: аналогия Типичный способ решения этой проблемы состоит в выдвижении гипотез о грамматических характеристиках нового слова на основе аналогии.

Слайд 20
Описание слайда:

Слайд 21
Описание слайда:
Бессловарный подход к морфологическому анализу: плюсы + Более экономичный, т.к. не нужен словарь основ или словоформ + Позволяет одинаковым способом обрабатывать все слова как «новые», не найденные в словаре. Для этого задаются списки грамматических морфем языка: флексий, предлогов, союзов, частиц

Слайд 22
Описание слайда:
Бессловарный подход к морфологическому анализу: минусы Не имеет выхода к семантическому анализу, для которого нужно знать леммы. Все слова трактуются как новые для анализатора большее количество ошибочных решений Для снижения их численности используются элементы синтаксического анализа (учитываются возможные списки сочетаний грамматических морфем) Например, На –ом –е соответствует определенному типу синтаксических структур, в частности, словосочетанию На золотом крыльце).

Слайд 23
Описание слайда:
Омонимия как основная проблема морфлогического анализа На завод привезли стекло. Масло стекло на пол. Данные эксперименты являются ошибочными. Последние данные являются ошибочными. Эти типы стали есть в цехе

Слайд 24
Описание слайда:
Проблема морфологической омонимии Использование скрытой Марковской модели: Для каждого слова, входящего в предложение выбирается грамматический класс так, чтобы максимизировать вероятность P(word|tag) * P(tag|previous n tags) P(word|tag) - условная вероятность (вычисленная по вручную размеченному корпусу) появления в данном месте слова word, при условии, что это слово имеет данный грамматический класс tag P(tag|previous n tags) - условная вероятность (также вычисленная по корпусу), появления данного тэга tag, при условии, что предыдущие n тэгов уже определены. Точность алгоритма для английского языка – 96%.

Слайд 25
Описание слайда:
Модель снятия морфологической омонимии на основе нормализующих подстановок и позиций соседних слов (Ю.Г. Зеленков, И.В. Сегалович) Целью алгоритма является получение леммы, то есть выбор между несколькими правилами преобразования словоформы в возможные леммы Используется небольшой, тщательного отобранный и размеченный вручную корпус как источник построения словаря контекстов омонимов Элементы контекста влияют на выбор омонима сильнее или слабее в зависимости от расположения относительно омонима

Слайд 26
Описание слайда:
Модель снятия морфологической омонимии на основе нормализующих подстановок и позиций соседних слов (Ю.Г. Зеленков, И.В. Сегалович) Сначала для каждого омонима исходного текста и его ближайших соседей строятся их нормализующие подстановки Для каждой пары <омоним, элемент контекста> из словаря контекстов выбирается лемма и вероятность ее порождения данным элементом контекста Для каждой леммы вычисляется сумма вероятностей, умноженная на значение коэффициента «силы» элемента контекста Значением омонима в данном контексте считается лемма с наибольшей взвешенной суммой вероятностей

Слайд 27
Описание слайда:
Алгоритмы для улучшения морф. анализа вероятностно-статистические основанные на продукционных правилах, оперирующих словами и кодами.

Слайд 28
Описание слайда:
Большинство вероятностно-статистических алгоритмов исп. два источника информации: Словарь словоформ языка, в котором каждой словоформе соответствует множество лексико-грамматических классов, которые могут иметься у данной словоформы. well   noun                  4         occurences in corpus well   adverb               1567     occurences in corpus well   adjective            6          occurences in corpus well   interjection         1          occurences in corpus Информацию о встречаемости всех возможных последовательностей лексико-грамматических классов. В зависимости от того, как представлена данная информация, разделяют биграмную, триграмную и квадриграмную модели.

Слайд 29
Описание слайда:
Модели встречаемости возможных последовательностей лексико-грам. классов биграмная, триграмная квадриграмная. В биграмной модели используется информация о всех возможных последовательностях из 2-х словоформ: неопр.артикль + сущ.ед.ч 35983 occurences in corpus опр.артикль + сущ.ед.ч 13838 occurences in corpus неопр.артикль + глагол 3 л., ед.ч 0 occurences in corpus глагол 3 л., ед.ч + предлог 3744 occurences in corpus В триграмной модели модели используется соответственно информация о всех возможных последовательностях из 3-х словоформ.

Слайд 30
Описание слайда:
Алгоритмы, основанные на продукционных правилах Используют правила собранные автоматически с корпуса текстов, либо подготовленные квалифицированными лингвистами, например: Если словоформа может быть как глаголом, так и существительным, и перед ней стоит артикль, эта словоформа в данном случае является существительным. Если словоформа может быть как предлогом, так и подчинительным союзом, и если после нее до конца предложения нет глагола, эта словоформа в данном случае является предлогом.

Слайд 31
Описание слайда:
Вероятностно-статистических алгоритмы Информация о словоформах языка и о встречаемости всех возможных последовательностей лексико-грамматических классов обрабатывается программой, использующей статистические алгоритмы. Для нахождения наиболее вероятного лексико-грамматического класса для каждого слова в предложении чаще всего исп. алгоритм скрытых цепей Маркова.

Слайд 32
Описание слайда:
Результативность Оба подхода дают примерно одинаковый результат. При их использовании раздельно либо в различных комбинациях точность лексико-грамматического анализа улучшается до 96-98 %. Точность лексико-грамматического анализа английского языка в автоматическом режиме достигла практически точности лексико-грамматического анализа в ручном режиме.

Слайд 33
Описание слайда:
Стемминг и лемматизация

Слайд 34
Описание слайда:
Лемматизация Специфическая задача морфологического анализа – это лемматизация, т.е. процесс образования первоначальной формы слова, исходя из других его словоформ. Во многих языках слово может встречаться в нескольких формах с различными флексиями. Формы англ. 'walk‘: 'walk', 'walked', 'walks', 'walking'. Базовая форма, 'walk', зафиксированная в словаре, называется леммой слова. Лемматизация представляет собой процесс группировки различных флективных форм одного слова таким образом, чтобы при анализе они обрабатывались как одно слово.

Слайд 35
Описание слайда:
Лемматизация позволяет исследователю выделять и изучать все варианты отдельной лексемы без необходимости введения всех возможных вариантов All women were walking in the streets "<*all>"         "all" <*> <Quant> DET PRE SG/PL "<women>"         "woman" N NOM PL "<were>"         "be" <SV> <SVC/N> <SVC/A> V PAST VFIN "<walking>"         "walk" <SV> <SVO> PCP1 "<in>"         "in" PREP "<the>"         "the" <Def> DET CENTRAL ART SG/PL "<streets>"         "street" N NOM PL "<$.>"

Слайд 36
Описание слайда:
состоит в нахождении стема (основы) слова. состоит в нахождении стема (основы) слова. Стемминг - отсечение от слова окончаний и суффиксов, чтобы оставшаяся часть, называемая stem, была одинаковой для всех грамматических форм слова. Разница между стеммингом и лемматизацией заключается в том, что стеммер обрабатывает отдельное слово без знания контекста, и, таким образом, не может дифференцировать слова, которые имеют разные значения в силу отнесенности к разным частям речи. Тем не менее, стеммеры обычно более просты для реализации и быстрее обрабатывают данные, а более низкая точность их работы может не иметь решающего значения для многих приложений.

Слайд 37
Описание слайда:
Стемминг применим к языкам, которые реализуют словоизменение через афиксы Стемминг применим к языкам, которые реализуют словоизменение через афиксы Применим к русскому языку, английскому языку и т.д. Стемы предложения «The quick brown fox jumped over the lazy dogs»: [quick] [brown] [fox] [jump] [over] [lazy] [dog].

Слайд 38
Описание слайда:
Стеммером пользуются для поиска текстов с имитацией учета морфологии. Стеммером пользуются для поиска текстов с имитацией учета морфологии. (подразумевается неустранимо большое количество ошибок и нерелевантных результатов, которые возникают, если применять только стеммер ) Для русского языка используется два дополнительные модуля грамматического словаря: Лемматизатор (словарь склонения) Флексер (словарь спряжения)

Слайд 39
Описание слайда:
Принцип работы стемминга применяется в поисковых машинах, позволяя производить поиск с учетом морфологии слова. При вводе ключевого слова, поисковик учитывает все словоформы этого слова и отражает это в поисковой выдаче.

Слайд 40
Описание слайда:
Допускаемые при стемминге ошибки: Допускаемые при стемминге ошибки: Ошибки 1го рода: Стеммер дает слишком большое обощение и поэтому сопоставляет исх. слово с грамматическими формами более чем одной словарной статьи. Компенсация ошибок первого рода выполняется либо введением списка стоп- слов, либо более качественно лемматизатором или флексером.

Слайд 41
Описание слайда:
Ошибки стемминга 2го рода - усечение формы дает слишком длинный стеммер, который не сопоставляется с некоторыми грамматическими формами этого же слова. Чаще всего такое происходит, когда меняется основа слова. Сюда же входят неправельные глаголы. Ошибки стемминга 2го рода - усечение формы дает слишком длинный стеммер, который не сопоставляется с некоторыми грамматическими формами этого же слова. Чаще всего такое происходит, когда меняется основа слова. Сюда же входят неправельные глаголы. Ошибки стемминга 3го рода - стеммер построить невозможно из-за изменения букв в корне слова.

Слайд 42
Описание слайда:
Стеммер Портера  Алгоритм стемминга, опубликованный Мартином Портером в 1980 году. Оригинальная версия стеммера была предназначена для английского языка. Мартин создал проект «Snowball» и, используя основную идею алгоритма, написал стеммеры для распространённых индоевропейских языков, в том числе для русского.

Слайд 43
Описание слайда:
Стемминг -это приближенный процесс, в ходе которого от слов отбрасываются окончания в расчете на то, что в большинстве случаев это себя оправдает. Стемминг часто подразумевает удаление производных аффиксов. Стемминг -это приближенный процесс, в ходе которого от слов отбрасываются окончания в расчете на то, что в большинстве случаев это себя оправдает. Стемминг часто подразумевает удаление производных аффиксов. Лемматизация— это точный процесс с использованием лексикона и морфологического анализа слов, в результате которого возвращается словарная форма слова. Например, лексема saw в ходе стемминга может превратиться в букву s, в то время как лемматизация вернет либо слово see, либо слово saw в зависимости от того, является ли лексема глаголом или именем существительным.


Скачать презентацию на тему Автоматическая обработка текстов на естественном языке можно ниже:

Похожие презентации