МОДЕЛЬ УПРОЩЕННОГО СИНТАКСИЧЕСКОГО АНАЛИЗА ТЕКСТОВ СЛОВАРНЫХ ОПРЕДЕЛЕНИЙ презентация

Содержание


Презентации» Шаблоны, фоны презентаций» МОДЕЛЬ УПРОЩЕННОГО СИНТАКСИЧЕСКОГО АНАЛИЗА ТЕКСТОВ СЛОВАРНЫХ ОПРЕДЕЛЕНИЙ
МОДЕЛЬ УПРОЩЕННОГО СИНТАКСИЧЕСКОГО АНАЛИЗА ТЕКСТОВ СЛОВАРНЫХ ОПРЕДЕЛЕНИЙ
 Бочаров Виктор
 Факультет филологииЗачем?
 полуавтоматическое пополнение онтологии
 автоматическое выделение троек «понятие» - «отношение» -Источники
 Российский энциклопедический словарь - Гл. ред.: А. М. Прохоров —Отношения
 Обобщение (значение по умолчанию)
 Тождество
 Частный случай (обратное к тождеству)
Примеры
 СОЦИОСФЕРА - обозначение человечества, общества, а также освоенной человеком природнойЕщё примеры
 СИНЕСТЕЗИЯ - явление восприятия, когда при раздражении данного органаКак?
 Базовая гипотеза:
 «родовой по отношению к определяемому термин представлен опорнымПервый результатПроблемы
 Омонимия
 «о чукотском море»
 леммы для словоформы «море»
 МОРЕ (ср.р.)
Усложнённый вариантЛексикографическая обработка
 сокращения (разворачиваются в полные слова, если это возможно)
 пометыПримеры
 АБРЕКИ - В прошлом у народов Сев. Кавказа изгнанники изСинтаксический анализ
 Используются компоненты АОТ
 Упрощённые правила: только группы с вершинойГрамматика
 ПРИЛАГАТЕЛЬНОЕ + ИМЕННАЯ ГРУППА
 [ANP] -> [ADJ] [NP root]
 :Грамматика: примеры
 ПРИЛАГАТЕЛЬНОЕ + ИМЕННАЯ ГРУППА
 ВОДОРОД - ХИМИЧЕСКИЙ ЭЛЕМЕНТ
 ХАЛАТСтруктура составляющихДерево зависимостейЧастичное снятие омонимииИзвлечение отношений
 Правила (код на Perl)
 обход дерева зависимостей
 операции:
 записатьПример правила
 Род, вид, сорт…
 изменить текущее название отношения на «обобщение»
Было / сталоСтатистика
 25.324 словарных статей
 26.376 записей в БД
 4.679 опорных словКачество
 Экспертная оценка
 200 словарных статей:
 179 (90%) – правильно
 21Примеры
 АБРАЗИВНЫЙ ИНСТРУМЕНТ - служит для механической обработки ( шлифование ,Википедия
 Отличия:
 обработка wiki-разметки
 оформление статей … разнообразно
 «первое предложение определения»Вики-разметка
 вики-разметка:
 '''Прего́ля''' (древнепрусск. ''Прэйгара'', {{lang-de|Pregel}} — Прегель, {{lang-lt|Prieglius}}, {{lang-pl|Pregoła}}) — [[река]], впадающая«Плохие» первые предложения
 Nyan Koi! (にゃんこい!) манга, созданная Сато Фудзиварой. 
Шаблоны
 {{НП-Россия
  |статус       Инструменты
 Wikipedia XML dump (все статьи одним файлом)
 Wikiprep.pl (версия проектаВопросы?



Слайды и текст этой презентации
Слайд 1
Описание слайда:
МОДЕЛЬ УПРОЩЕННОГО СИНТАКСИЧЕСКОГО АНАЛИЗА ТЕКСТОВ СЛОВАРНЫХ ОПРЕДЕЛЕНИЙ Бочаров Виктор Факультет филологии и искусств СПбГУ Санкт-Петербург


Слайд 2
Описание слайда:
Зачем? полуавтоматическое пополнение онтологии автоматическое выделение троек «понятие» - «отношение» - «понятие» проверка оператором

Слайд 3
Описание слайда:
Источники Российский энциклопедический словарь - Гл. ред.: А. М. Прохоров — М.: Большая Российская энциклопедия, 2001 Раздел проекта «Википедия» на русском языке

Слайд 4
Описание слайда:
Отношения Обобщение (значение по умолчанию) Тождество Частный случай (обратное к тождеству) Часть Целое Инструмент или назначение другое

Слайд 5
Описание слайда:
Примеры СОЦИОСФЕРА - обозначение человечества, общества, а также освоенной человеком природной среды, в совокупности составляющих часть географической оболочки. СОЦИОСФЕРА same ЧЕЛОВЕЧЕСТВО

Слайд 6
Описание слайда:
Ещё примеры СИНЕСТЕЗИЯ - явление восприятия, когда при раздражении данного органа чувств наряду со специфическими для него ощущениями возникают и ощущения, соответствующие другому органу чувств. СИНЕСТЕЗИЯ gen ЯВЛЕНИЕ СИНЕСТЕЗИЯ same ВОСПРИЯТИЕ

Слайд 7
Описание слайда:
Как? Базовая гипотеза: «родовой по отношению к определяемому термин представлен опорным словом - первым по порядку существительным в именительном падеже»

Слайд 8
Описание слайда:
Первый результат

Слайд 9
Описание слайда:
Проблемы Омонимия «о чукотском море» леммы для словоформы «море» МОРЕ (ср.р.) МОР (мр.р.) МОРА (жр.р.) Мало информации: все связи одного типа (род-вид) связи только с одним словом в определении

Слайд 10
Описание слайда:
Усложнённый вариант

Слайд 11
Описание слайда:
Лексикографическая обработка сокращения (разворачиваются в полные слова, если это возможно) пометы (удаляются) текст в скобках (удаляется)

Слайд 12
Описание слайда:
Примеры АБРЕКИ - В прошлом у народов Сев. Кавказа изгнанники из рода, ведшие скитальческую или разбойничью жизнь

Слайд 13
Описание слайда:
Синтаксический анализ Используются компоненты АОТ Упрощённые правила: только группы с вершиной – существительным Строится дерево зависимостей

Слайд 14
Описание слайда:
Грамматика ПРИЛАГАТЕЛЬНОЕ + ИМЕННАЯ ГРУППА [ANP] -> [ADJ] [NP root] : $0.grm := case_number_gender($1.grm, $2.type_grm, $2.grm); ГЕНИТИВНАЯ ГРУППА [GP] -> [NP root] [NP grm="рд"]; ПРЕДЛОЖНАЯ ГРУППА [PP] -> [PREP root] [NP]; ИМЕННАЯ ГРУППА [NP] -> [NOUN]; [NP] -> [NP root] [PP] ; [NP] -> [PP] | [GP] | [ANP];

Слайд 15
Описание слайда:
Грамматика: примеры ПРИЛАГАТЕЛЬНОЕ + ИМЕННАЯ ГРУППА ВОДОРОД - ХИМИЧЕСКИЙ ЭЛЕМЕНТ ХАЛАТ – ВЕРХНЯЯ ОДЕЖДА ГЕНИТИВНАЯ ГРУППА АМПЕР - ЕДИНИЦА ИЗМЕРЕНИЯ АБЗАЦ – ЧАСТЬ ТЕКСТА ПРЕДЛОЖНАЯ ГРУППА АВАЛЬ - ПОРУЧИТЕЛЬСТВО ПО ВЕКСЕЛЮ АКСЕЛЕРОМЕТР – ПРИБОР ДЛЯ ИЗМЕРЕНИЯ УСКОРЕНИЯ

Слайд 16
Описание слайда:
Структура составляющих

Слайд 17
Описание слайда:
Дерево зависимостей

Слайд 18
Описание слайда:
Частичное снятие омонимии

Слайд 19
Описание слайда:
Извлечение отношений Правила (код на Perl) обход дерева зависимостей операции: записать текущее слово с текущим названием отношения изменить текущее название отношения выбрать следующее слово

Слайд 20
Описание слайда:
Пример правила Род, вид, сорт… изменить текущее название отношения на «обобщение» выбрать следующее существительное записать ФИЛЬДЕПЕРС - высший сорт фильдекоса. ПИДЖИНЫ - тип языков, используемых как средство межэтнического общения в среде разноязычного населения.

Слайд 21
Описание слайда:
Было / стало

Слайд 22
Описание слайда:
Статистика 25.324 словарных статей 26.376 записей в БД 4.679 опорных слов

Слайд 23
Описание слайда:
Качество Экспертная оценка 200 словарных статей: 179 (90%) – правильно 21 – неправильно: 16 - недоработки ПО (синтаксис) 5 – неверна гипотеза о том, что опорное слово есть в первом предложении определения предел точности: 179 + 16 / 200 = 97.5%

Слайд 24
Описание слайда:
Примеры АБРАЗИВНЫЙ ИНСТРУМЕНТ - служит для механической обработки ( шлифование , притирка и другие ). АВОГАДРО ЗАКОН - в равных объемах идеальных газов при одинаковых давлении и температуре содержится одинаковое число молекул. АБИТУРИЕНТ - в большинстве стран - оканчивающий среднее учебное заведение.

Слайд 25
Описание слайда:
Википедия Отличия: обработка wiki-разметки оформление статей … разнообразно «первое предложение определения» надо искать статьи без определений («Советско-германские договоры 1939», «Список кодов ответов FTP», …) статьи-даты («23 марта — 82-й день года …») «формализованная» информация (шаблоны) Размер: 430 тыс. статей (дамп от 6 октября 2009)

Слайд 26
Описание слайда:
Вики-разметка вики-разметка: '''Прего́ля''' (древнепрусск. ''Прэйгара'', {{lang-de|Pregel}} — Прегель, {{lang-lt|Prieglius}}, {{lang-pl|Pregoła}}) — [[река]], впадающая в [[Балтийское море]], точнее в пресноводный [[Калининградский залив|Калининградский (Вислинский) залив]]. Длина Преголи — 123 км, вместе с Анграппой (один из важнейших притоков) — 292 км. Площадь бассейна Преголи — 15,5 тыс. км². результат: Прего́ля (древнепрусск. Прэйгара, нем. Pregel — Прегель, лит. Prieglius, польск. Pregoła) — река, впадающая в Балтийское море, точнее в пресноводный Калининградский (Вислинский) залив. Длина Преголи — 123 км, вместе с Анграппой (один из важнейших притоков) — 292 км. Площадь бассейна Преголи — 15,5 тыс. км².

Слайд 27
Описание слайда:
«Плохие» первые предложения Nyan Koi! (にゃんこい!) манга, созданная Сато Фудзиварой. ‘‘‘ИНСТИТУТ ГУМАНИТАРНЫХ ИСТОРИКО-ТЕОРЕТИЧЕСКИХ ИССЛЕДОВАНИЙ’’’ (ИГИТИ) создан в рамках Государственного университета – Высшей школы экономики (ГУ-ВШЭ) в 2002 г. «Описание мира в науке и религии отличается в своей основе. …»

Слайд 28
Описание слайда:
Шаблоны {{НП-Россия |статус = Город |русское название = Великий Новгород |регион = Новгородская область |глава = [[Бобрышев, Юрий Иванович|Юрий Бобрышев]] |дата основания = VIII{{!}} VIII—IX век |первое упоминание = 859{{!}} 859 (Официально, условно) |прежние имена = Новгород (до [[1999 год]]а) |площадь = 90,08 |население = {{Падение}} 215 351 |год переписи = 2009 |плотность = 2405,6 |этнохороним = новгоро́дцы,<br />новгоро́дец,<br />новгоро́дка |часовой пояс = +3 |почтовые индексы = 173xxx |телефонный код = 8162 |автомобильный код = 53 |цифровой идентификатор = 49401000000 |категория в Commons = Velikiy Novgorod |сайт = http://www.adm.nov.ru |информация для туристов = http://www.visitnovgorod.ru }}

Слайд 29
Описание слайда:
Инструменты Wikipedia XML dump (все статьи одним файлом) Wikiprep.pl (версия проекта Zemanta) вики-разметка -> ~HTML / plain text разворачивает шаблоны URL: http://wikiprep.sf.net/

Слайд 30
Описание слайда:
Вопросы?


Скачать презентацию на тему МОДЕЛЬ УПРОЩЕННОГО СИНТАКСИЧЕСКОГО АНАЛИЗА ТЕКСТОВ СЛОВАРНЫХ ОПРЕДЕЛЕНИЙ можно ниже:

Похожие презентации