ТЕРМИНОЛОГИЧЕСКИЙ АНАЛИЗ ТЕКСТА НА ОСНОВЕ ЛЕКСИКО-СИНТАКСИЧЕСКИХ ШАБЛОНОВ презентация

Содержание


Презентации» Шаблоны, фоны презентаций» ТЕРМИНОЛОГИЧЕСКИЙ АНАЛИЗ ТЕКСТА НА ОСНОВЕ ЛЕКСИКО-СИНТАКСИЧЕСКИХ ШАБЛОНОВ
ТЕРМИНОЛОГИЧЕСКИЙ  АНАЛИЗ ТЕКСТА НА ОСНОВЕ ЛЕКСИКО-СИНТАКСИЧЕСКИХ ШАБЛОНОВ
 Ефремова Н.Э., БольшаковаСОДЕРЖАНИЕ ДОКЛАДА
 Постановка задачи
 Термины и особенности их употребления
 Формализация особенностей
ПОСТАНОВКА ЗАДАЧИ
 Решение многих задач АОТ требует выявления в текстах терминовПОДХОД К ВЫЯВЛЕНИЮ
 Обычно выявление терминов опирается на:
 статистические особенности
 лингвистическиеОСОБЕННОСТИ ТЕРМИНОВ
 типичная синтаксическая структура
   прил. + сущ. УПОТРЕБЛЕНИЕ В ТЕКСТЕ
 варьирование отдельного термина:     ЛЕКСИКО-СИНТАКСИЧЕСКИЕ ШАБЛОНЫ
 Для формализации выбран язык LSPL и его библиотека: 
ПРИМЕРЫ ШАБЛОНОВ (1)
 Синтаксические образцы терминов: 
   N1 A2ПРИМЕРЫ ШАБЛОНОВ (2)
 Правила образования      ВЫЯВЛЕНИЕ ТЕРМИНОВ
 Набор процедур: каждая процедура – свой набор шаблонов
 ТЕСТИРОВАНИЕ ПРОЦЕДУР
 Процедуры по отдельности протестированы на НТТ из областей физикиРЕЗУЛЬТАТЫ ТЕСТИРОВАНИЯОБСУЖДЕНИЕ  РЕЗУЛЬТАТОВ (1)
 Выявление терминов-кандидатов и соединений:
 потеря точности
 ОБСУЖДЕНИЕ РЕЗУЛЬТАТОВ (2)
 Выявление авторских терминов и синонимов:
 потеря полноты ИДЕЯ ОБЪЕДИНЕНИЯ
 Расширение набора шаблонов:
 повышается полнота, падает точность 
 требуетсяСТРАТЕГИЯ СОВМЕСТНОГО ПРИМЕНЕНИЯ ПРОЦЕДУР
 К тексту применяются процедуры выявления
 Словарные иРЕЗУЛЬТАТЫ  ПРИМЕНЕНИЯ СТРАТЕГИИ
 Для оценки результатов использовалась F-мера:
 F =СПАСИБО ЗА ВНИМАНИЕ!



Слайды и текст этой презентации
Слайд 1
Описание слайда:
ТЕРМИНОЛОГИЧЕСКИЙ АНАЛИЗ ТЕКСТА НА ОСНОВЕ ЛЕКСИКО-СИНТАКСИЧЕСКИХ ШАБЛОНОВ Ефремова Н.Э., Большакова Е.И., Носков А.А., Антонов В.Ю. МГУ имени М.В. Ломоносова, факультет ВМиК


Слайд 2
Описание слайда:
СОДЕРЖАНИЕ ДОКЛАДА Постановка задачи Термины и особенности их употребления Формализация особенностей Процедуры выявления терминов и их употреблений Стратегия совместного применения процедур Используемые сокращения: АОТ – автоматическая обработка текста ПО – предметная область ЕЯ – естественный язык НТТ – научно-технический текст

Слайд 3
Описание слайда:
ПОСТАНОВКА ЗАДАЧИ Решение многих задач АОТ требует выявления в текстах терминов Термин – слово или словосочетание, называющее понятие определенной ПО десятичная запятая, донорно-акцепторная связь Решение некоторых задач АОТ: машинный перевод литературно-научное редактирование требует выявление в отдельном тексте всевозможных употреблений терминов рентгеновское излучение – рентгеновские лучи, излучение

Слайд 4
Описание слайда:
ПОДХОД К ВЫЯВЛЕНИЮ Обычно выявление терминов опирается на: статистические особенности лингвистические особенности частичный синтаксический анализ Мы предлагаем учитывать: типичную структуру терминов варьирование отдельного термина соединение нескольких терминов характерные конструкции употребления терминов в НТТ терминологический словарь ПО

Слайд 5
Описание слайда:
ОСОБЕННОСТИ ТЕРМИНОВ типичная синтаксическая структура прил. + сущ. электрический контур сущ. + сущ. в род. падеже тип данных прил. + прил. + сущ. слабая внешняя ссылка терминологический словарь ПО: словарные термины управление памятью, первый закон Ньютона новые (авторские) термины тонкий клиент, вимп, кэш второго уровня

Слайд 6
Описание слайда:
УПОТРЕБЛЕНИЕ В ТЕКСТЕ варьирование отдельного термина: одно понятие – несколько способов выражения алгебра логики – булева алгебра широкий атмосферный ливень – ШАЛ соединение нескольких терминов базовый класс  производный класс  базовый и производный класс характерные конструкции: определения авторских терминов Под конвейерным режимом понимают… введения синонимов разрядностью, или длиной слова

Слайд 7
Описание слайда:
ЛЕКСИКО-СИНТАКСИЧЕСКИЕ ШАБЛОНЫ Для формализации выбран язык LSPL и его библиотека: язык позволяет описывать конструкции ЕЯ в виде лексико-синтаксических шаблонов библиотека реализует поиск по шаблонам описанных конструкций в тексте Шаблоны фиксируют лексический состав и синтаксические связи формализуемых конструкций. Для этого используются: простые элементы "базисом", N<базис,n=sing>, A N <A=N> сложные элементы {A} N, N1 [N2<c=gen>], A|Pa словарные условия <Syn(N1,N2)> имена шаблонов и параметры Term = {A} N1 [N2<c=gen>] <A=N1> (N1)  Term<c=ins> выделяемая конструкция Term1 "("Term2")" <Term1.c=Term2.c> # Term1

Слайд 8
Описание слайда:
ПРИМЕРЫ ШАБЛОНОВ (1) Синтаксические образцы терминов: N1 A2 N2<c=gen> <A2=N2> технология двойной накачки Словарные термины: A1<битовый> {N1<массив> | N1<образ>}<1,1> битовый массив, битовый образ Контексты определения авторских терминов: Defin<c=acc> "будем" "называть" Term<c=ins> # Term Такие операции будем называть понятийными операциями "под" Term<c=ins> "понимается" Defin<c=nom> #Term Под продукцией понимается выражение…

Слайд 9
Описание слайда:
ПРИМЕРЫ ШАБЛОНОВ (2) Правила образования лексико-синтаксических вариантов: N1 N2<c=gen> # ввод данных N1, ввод N1 N4<c=gen> <Syn(N2,N4)> ввод информации Соединения терминов: N1 N2<c=gen> "," N3<c=gen> {"и"|"или"} N4<c=gen> # N1 N2<c=gen>, N1 N3<c=gen>, N1 N4<c=gen> шинам адреса, данных и управления – шина адреса, шина данных, шина управления Контексты введения синонимов: Term1 "("Term2")" <Term1.c=Term2.c> # Term1, Term2 взаимодействующих компонентов (подсистем)

Слайд 10
Описание слайда:
ВЫЯВЛЕНИЕ ТЕРМИНОВ Набор процедур: каждая процедура – свой набор шаблонов Термины-кандидаты – слова/словосочетания с типичной синтаксической структурой Вход: анализируемый текст, шаблоны Выявление терминов и их употреблений: поиск текстовых фрагментов, описываемых шаблонами Подсчет частоты Выход: термины с частотой употребления

Слайд 11
Описание слайда:
ТЕСТИРОВАНИЕ ПРОЦЕДУР Процедуры по отдельности протестированы на НТТ из областей физики и информатики (объем 700 Кб) Использовались словари по физике (>3 тыс. терминов) и по информатике (>4 тыс. терминов) Оценивались полнота и точность выявления (в сравнении с экспертными списками): терминов их употреблений (вхождений в текст) Для синонимов и соединений: только полнота и точность выделения терминов, встретившихся в них

Слайд 12
Описание слайда:
РЕЗУЛЬТАТЫ ТЕСТИРОВАНИЯ

Слайд 13
Описание слайда:
ОБСУЖДЕНИЕ РЕЗУЛЬТАТОВ (1) Выявление терминов-кандидатов и соединений: потеря точности крупный размер, аналогичный результат потеря полноты индекс iCOMP, обратная связь по релевантности Выявление словарных терминов: распознаны как термины общеупотребительные словосочетания или их части ряд – в ряде случаев, за рядом исключений

Слайд 14
Описание слайда:
ОБСУЖДЕНИЕ РЕЗУЛЬТАТОВ (2) Выявление авторских терминов и синонимов: потеря полноты Регистр представляет собой совокупность... словарные термины в контекстах определения Под прерыванием понимается сигнал... Выявление употреблений: потеря полноты дисковый файл – файл на диске структурное и модульное программирование

Слайд 15
Описание слайда:
ИДЕЯ ОБЪЕДИНЕНИЯ Расширение набора шаблонов: повышается полнота, падает точность требуется ручная работа Простое объединение списков терминов, выявленных процедурами: повышается полнота, падает точность Учет процедурами списков терминов, выявленных другими процедурами: повышается точность определения терминоупотреблений выявленные из соединений термины давали прирост полноты выявления терминов на 12%

Слайд 16
Описание слайда:
СТРАТЕГИЯ СОВМЕСТНОГО ПРИМЕНЕНИЯ ПРОЦЕДУР К тексту применяются процедуры выявления Словарные и авторские термины заносятся в S Термин-кандидат добавляется в S, если его частью является словарный или авторский термин Пара синонимов добавляется в S, если один из них уже в S Термины из соединений добавляются в S, если среди них есть разрывный термин из S (или словарный) Для терминов из S ищутся лексико-синтаксические варианты и добавляются в S В S добавляются термины-кандидаты с частотой выше некоего порога Повторяем шаги, начиная с 3

Слайд 17
Описание слайда:
РЕЗУЛЬТАТЫ ПРИМЕНЕНИЯ СТРАТЕГИИ Для оценки результатов использовалась F-мера: F = 2 x Precision x Recall / (Precision + Recall) Сравнивались списки терминов, полученные: простым объединением списков терминов, выявленных процедурами применением стратегии В среднем прирост: F-меры выявления терминов – 10% F-меры выявления терминоупотреблений – 7% Проблемы: как термины выявляются общенаучные словосочетания (различные цели) один вариант связывается с несколькими терминами (регистр адреса, регистр команды – регистр)

Слайд 18
Описание слайда:
СПАСИБО ЗА ВНИМАНИЕ!

Слайд 19
Описание слайда:

Слайд 20
Описание слайда:


Скачать презентацию на тему ТЕРМИНОЛОГИЧЕСКИЙ АНАЛИЗ ТЕКСТА НА ОСНОВЕ ЛЕКСИКО-СИНТАКСИЧЕСКИХ ШАБЛОНОВ можно ниже:

Похожие презентации