Итерационное извлечение шаблонов описания событий по новостным кластерам презентация

Содержание


Презентации» Шаблоны, фоны презентаций» Итерационное извлечение шаблонов описания событий по новостным кластерам
Итерационное извлечение шаблонов описания событий по новостным кластерам
 Котельников Дмитрий Сергеевич
План
 Задача извлечения информации из текста
 Извлечение сущностей
 Итерационное извлечение шаблоновИзвлечение информации из текста
 Выделение из текста на естественном языке структурированнойПодходы к созданию систем
 Системы основанные на знаниях («инженерный подход»)
 ПравилаИтерационный метод
 S. Brin “Extracting Patterns and Relations from the WorldПостановка задачи
 Разработать способ автоматического формирования шаблонов для системы извлечения информацииПлан
 Задача извлечения информации из текста
 Извлечение сущностей
 Итерационное извлечение шаблоновИзвлечение сущностей
 Виды извлекаемых сущностей:
 обозначения даты или времени: «5 августаИзвлечение сущностей
 Для выделения именованных сущностей использовался упрощенный алгоритм
 Президент ДмитрийИзвлечение сущностей
 Анализ совместной встречаемости сущностей в предложениях:
 Россия готова участвоватьПоиск синонимичных сущностей
 Один объект может описываться различными выражениями:
 «МВФ»
 «МеждународныйПоиск синонимичных сущностей
 Совпадение контекстов употребления слова:
 Заместитель главы Газпрома АлександрПоиск синонимичных сущностей
 Контексты через глагол:
 Президент Дмитрий Медведев поручил правительствуПлан
 Задача извлечения информации из текста
 Извлечение сущностей
 Итерационное извлечение шаблоновИсходные данные
 Новостной кластер на заданную тему, в котором указаны всеМетод формирования шаблоновМетод формирования шаблонов
 «Microsoft намерена купить Yahoo за 44,6 млрд долларов»
Метод формирования шаблоновЗначимые слова
 Присутствие некоторых слов в предложении может указывать на наличиеИзвлечение шаблонов
 Выделяется непустая подстрока лемм между двумя различными слотами
 ШаблонМетод формирования шаблоновПлан
 Задача извлечения информации из текста
 Извлечение сущностей
 Итерационное извлечение шаблоновЭксперименты
 Была размечена коллекция из 84 новостных кластеров.
 Пример разметки:
 КредиторЭксперименты
 Результаты перекрестной проверки при разделении на 4 части:Эксперименты
 Сравнение с системой, основанной на инженерном подходе для факта полученияПримеры шаблонов
 [Entity:Creditor:[Им]] <ПРЕДОСТАВИТЬ> [Entity:Debtor:[Рд, Дт, Пр]] {КРЕДИТ}
 [Entity:Creditor:[Вн, Им]] <ВЫДЕЛИТЬ>Примеры значимых словРезультаты
 Разработан метод итерационного извлечения шаблонов для системы извлечения информации из



Слайды и текст этой презентации
Слайд 1
Описание слайда:
Итерационное извлечение шаблонов описания событий по новостным кластерам Котельников Дмитрий Сергеевич МГУ им. М.В. Ломоносова Лукашевич Наталья Валентиновна НИВЦ МГУ им. М.В. Ломоносова


Слайд 2
Описание слайда:
План Задача извлечения информации из текста Извлечение сущностей Итерационное извлечение шаблонов описания событий Оценка предложенного подхода и результаты

Слайд 3
Описание слайда:
Извлечение информации из текста Выделение из текста на естественном языке структурированной информации «МВФ предоставит Белоруссии кредит на сумму $2,46 млрд» Кредитор: МВФ Получатель: Белоруссия Сумма: $2,46 млрд

Слайд 4
Описание слайда:
Подходы к созданию систем Системы основанные на знаниях («инженерный подход») Правила выделения фактов из текста составляются человеком вручную Высокая трудоемкость создания Сложность адаптации к извлечению новых фактов Автоматически обучающиеся системы Правила выделения событий формируются автоматически Необходимость создания размеченной коллекции

Слайд 5
Описание слайда:
Итерационный метод S. Brin “Extracting Patterns and Relations from the World Wide Web” Обучение начинается с небольшого количества размеченных примеров <LI><B>First Men in the Moon</B>by H. G. Wells ( <LI><B>title</B> by author (

Слайд 6
Описание слайда:
Постановка задачи Разработать способ автоматического формирования шаблонов для системы извлечения информации из текста. Проверить качество работы системы при обучении на небольшом количестве размеченных примеров Новостные кластеры — источник разнообразных описаний событий

Слайд 7
Описание слайда:
План Задача извлечения информации из текста Извлечение сущностей Итерационное извлечение шаблонов описания событий Оценка предложенного подхода и результаты

Слайд 8
Описание слайда:
Извлечение сущностей Виды извлекаемых сущностей: обозначения даты или времени: «5 августа 2006 года» «05.07.1988» числовые выражения: «5,5 миллиардов долларов» «пятьдесят процентов» именованные объекты: «Международный валютный фонд» «В.В. Путин»

Слайд 9
Описание слайда:
Извлечение сущностей Для выделения именованных сущностей использовался упрощенный алгоритм Президент Дмитрий Медведев поручил правительству Российской Федерации не выполнять протокол

Слайд 10
Описание слайда:
Извлечение сущностей Анализ совместной встречаемости сущностей в предложениях: Россия готова участвовать в кредите ЕС Киеву на энергоцели - заявил Путин; В ответ на жесткую позицию России, которая заявила, что не будет выполнять подписанный Киевом протокол по транзиту газа из-за внесенных в него оговорок, ЕС и Украина говорят, что согласны рассмотреть претензии Москвы»

Слайд 11
Описание слайда:
Поиск синонимичных сущностей Один объект может описываться различными выражениями: «МВФ» «Международный валютный фонд» «Совет директоров МВФ» «Исполнительный совет Международного валютного фонда»

Слайд 12
Описание слайда:
Поиск синонимичных сущностей Совпадение контекстов употребления слова: Заместитель главы Газпрома Александр Медведев заявил, что поставки российского газа в Евросоюз через территорию Украины могут быть возобновлены. Поставки российского газа в Европу через территорию Украины могут быть возобновлены.

Слайд 13
Описание слайда:
Поиск синонимичных сущностей Контексты через глагол: Президент Дмитрий Медведев поручил правительству Российской Федерации не выполнять протокол до тех пор, пока в нем не будут сняты противоречия. Президент России Дмитрий Медведев поручил правительству Российской Федерации не выполнять протокол до тех пор, пока в нем не будут сняты противоречия.

Слайд 14
Описание слайда:
План Задача извлечения информации из текста Извлечение сущностей Итерационное извлечение шаблонов описания событий Оценка предложенного подхода и результаты

Слайд 15
Описание слайда:
Исходные данные Новостной кластер на заданную тему, в котором указаны все участники события: Покупатель: «Microsoft» Товар: «Yahoo» Сумма: «44,6 млрд»

Слайд 16
Описание слайда:
Метод формирования шаблонов

Слайд 17
Описание слайда:
Метод формирования шаблонов «Microsoft намерена купить Yahoo за 44,6 млрд долларов» «Компания Microsoft собирается приобрести поисковую систему Yahoo за 44,6 миллиардов долларов»

Слайд 18
Описание слайда:
Метод формирования шаблонов

Слайд 19
Описание слайда:
Значимые слова Присутствие некоторых слов в предложении может указывать на наличие в нем извлекаемого события «МВФ предоставил Белоруссии кредит на $2,46 млрд» «МВФ дал Белоруссии $2,46 млрд»

Слайд 20
Описание слайда:
Извлечение шаблонов Выделяется непустая подстрока лемм между двумя различными слотами Шаблон должен обязательно содержать глагол и значимое слово: «Microsoft намерена купить Yahoo за 44,6 млрд долларов» [Entity:Buyer:[Им]] НАМЕРИТЬ {КУПИТЬ} [Entity: Goods:[Дт]] ЗА [Number:Amount]

Слайд 21
Описание слайда:
Метод формирования шаблонов

Слайд 22
Описание слайда:
План Задача извлечения информации из текста Извлечение сущностей Итерационное извлечение шаблонов описания событий Оценка предложенного подхода и результаты

Слайд 23
Описание слайда:
Эксперименты Была размечена коллекция из 84 новостных кластеров. Пример разметки: Кредитор : МВФ ; Совет директоров МВФ ; совета директоров Международного валютного фонда ; Международный валютный фонд ; Исполнительный совет директоров МВФ ; СД МВФ Сумма : 2 , 5 миллиардов долларов ; 2 , 46 млрд долл ; Получатель : Минск ; Белоруссии ; Беларуси ; власти Белоруссии

Слайд 24
Описание слайда:
Эксперименты Результаты перекрестной проверки при разделении на 4 части:

Слайд 25
Описание слайда:
Эксперименты Сравнение с системой, основанной на инженерном подходе для факта получения кредита

Слайд 26
Описание слайда:
Примеры шаблонов [Entity:Creditor:[Им]] <ПРЕДОСТАВИТЬ> [Entity:Debtor:[Рд, Дт, Пр]] {КРЕДИТ} [Entity:Creditor:[Вн, Им]] <ВЫДЕЛИТЬ> [Entity:Debtor:[Им, Рд]] {КРЕДИТ} [Entity:Debtor:[Им]] <ПОЛУЧИТЬ> {КРЕДИТ} НА [Number:Amount] [Entity:Creditor:[Им]] <ВЫДЕЛИТЬ> [Entity:Debtor:[Рд, Дт, Пр]] {КРЕДИТ} В [Number:Amount]

Слайд 27
Описание слайда:
Примеры значимых слов

Слайд 28
Описание слайда:
Результаты Разработан метод итерационного извлечения шаблонов для системы извлечения информации из текста, основанный на нахождении в новостном кластере несколько близких по содержанию предложений. Проведены эксперименты, которые показали применимость системы для формирования шаблонов на небольшом количестве размеченных примеров


Скачать презентацию на тему Итерационное извлечение шаблонов описания событий по новостным кластерам можно ниже:

Похожие презентации