Автоматическая обработка текстов на естественном языке презентация
Содержание
- 2. Графемный анализ текстовой информации
- 3. Токенизация = автоматический графемный анализ = Процедура выделения в тексте слов,
- 4. Задачи токенизации Разделение входного текста на элементы (слова, разделители и т.д.);
- 5. Сложности токенизации обработка дефиса и пробела; выделение составных предлогов, устойчивых
- 6. Токенизация Межсловный дефис: объединительная функция (буква)? кто-то, где-нибудь, давным-давно, бакш-таг,
- 7. Примерный перечень элементов текста, требующих специальной обработки Примерный перечень элементов текста,
- 8. Морфологический анализ текстовой информации
- 9. Морфологический анализ – преобразование текста, при котором каждая словоформа текста представлена
- 10. В корпусной лингвистике процедуру морфологического анализа и разметки текста называют тегированием,
- 11. Морфологический анализ: процедуры Лемматизация, т.е. сведение различных словоформ к исходной форме,
- 12. Морфологический анализ: этапы (1) Последовательное отделение от конца словоформы возможных афиксов;
- 13. Морфологический анализ: этапы (2) Определение совместимости информации об аффиксах и основах
- 14. Морфологический анализ: этапы (3) Каждой морфеме присваивается некоторый вес. Вариант разбора,
- 15. Система весов морфем Междометия имеют более высокий вес, нежели существительные, это
- 16. Два подхода к морф. анализу текста: словарный, при котором задаѐтся
- 17. Словарный подход к морфологическому анализу Наиболее лингвистический метод Дает максимально полный
- 18. Словарный подход к морфологическому анализу: минусы Проблема большого объема словаря, который
- 19. Бессловарный подход к морфологическому анализу: аналогия Типичный способ решения этой проблемы
- 21. Бессловарный подход к морфологическому анализу: плюсы + Более экономичный, т.к. не
- 22. Бессловарный подход к морфологическому анализу: минусы Не имеет выхода к семантическому
- 23. Омонимия как основная проблема морфлогического анализа На завод привезли стекло.
- 24. Проблема морфологической омонимии Использование скрытой Марковской модели: Для каждого слова, входящего
- 25. Модель снятия морфологической омонимии на основе нормализующих подстановок и позиций соседних
- 26. Модель снятия морфологической омонимии на основе нормализующих подстановок и позиций соседних
- 27. Алгоритмы для улучшения морф. анализа вероятностно-статистические основанные на продукционных правилах,
- 28. Большинство вероятностно-статистических алгоритмов исп. два источника информации: Словарь словоформ языка, в
- 29. Модели встречаемости возможных последовательностей лексико-грам. классов биграмная, триграмная квадриграмная.
- 30. Алгоритмы, основанные на продукционных правилах Используют правила собранные автоматически с корпуса
- 31. Вероятностно-статистических алгоритмы Информация о словоформах языка и о встречаемости всех возможных
- 32. Результативность Оба подхода дают примерно одинаковый результат. При их использовании раздельно
- 33. Стемминг и лемматизация
- 34. Лемматизация Специфическая задача морфологического анализа – это лемматизация, т.е. процесс образования
- 35. Лемматизация позволяет исследователю выделять и изучать все варианты отдельной лексемы без
- 36. состоит в нахождении стема (основы) слова. состоит в нахождении стема
- 37. Стемминг применим к языкам, которые реализуют словоизменение через афиксы Стемминг применим
- 38. Стеммером пользуются для поиска текстов с имитацией учета морфологии. Стеммером пользуются
- 39. Принцип работы стемминга применяется в поисковых машинах, позволяя производить поиск с
- 40. Допускаемые при стемминге ошибки: Допускаемые при стемминге ошибки: Ошибки 1го рода:
- 41. Ошибки стемминга 2го рода - усечение формы дает слишком длинный стеммер,
- 42. Стеммер Портера Алгоритм стемминга, опубликованный Мартином Портером в 1980 году. Оригинальная
- 43. Стемминг -это приближенный процесс, в ходе которого от слов отбрасываются окончания
- 44. Скачать презентацию










































Слайды и текст этой презентации
Скачать презентацию на тему Автоматическая обработка текстов на естественном языке можно ниже:
Похожие презентации