Система семантического разбора для естественно-языковых текстов

Дипломная работа - Компьютеры, программирование

Другие дипломы по предмету Компьютеры, программирование

Скачать Бесплатно!
Для того чтобы скачать эту работу.
1. Пожалуйста введите слова с картинки:

2. И нажмите на эту кнопку.
закрыть



p>

Часть речи в системе ДиалингПримерРасшифровкаCмамасуществительноеПкрасныйприлагательноеМСонместоимение-существительноеГидетглагол в личной формеПРИЧАСТИЕидущийпричастиеДЕЕПРИЧАСТИЕидядеепричастиеИНФИНИТИВидтиинфинитивМС-ПРЕДКнечегоместоимение-предикативМС-Пвсякийместоименное прилагательноеЧИСЛвосемьчислительное (количественное)ЧИСЛ-Пвосьмойпорядковое числительноеНкрутонаречиеПРЕДКинтереснопредикативПРЕДЛподпредлогСОЮЗисоюзМЕЖДоймеждометиеЧАСТже, бычастицаВВОДНконечновводное словоКР_ПРИЛкрасивакраткое прилагательноеКР_ПРИЧАСТИЕпостроенакраткое причастие

Граммема - это элементарный морфологический описатель, относящий словоформу к какому-то морфологическому классу, например, словоформе "стол" с леммой "СТОЛ" будут приписаны следующие наборы граммем: "мр, ед, им, но", "мр, ед, вн, но". Таким образом, морфологический анализ выдает два варианта анализа словоформы "стол" с леммой "СТОЛ" внутри одной морфологической интерпретации: с винительным (вн) и именительным падежами (им).

Ниже перечислены все используемые граммемы:

-мр, жр, ср - мужской, женский, средний род;

-од, но - одушевленность, неодушевленность;

-ед, мн - единственное, множественное число;

-им, рд, дт, вн, тв, пр, зв - падежи: именительный, родительный, дательный, винительный, творительный, предложный, звательный;

-2 - обозначает второй родительный или второй предложный падежи;

-св, нс - совершенный, несовершенный вид;

-пе, нп - переходный, непереходный глагол;

-дст, стр - действительный, страдательный залог;

-нст, прш, буд - настоящее, прошедшее, будущее время;

-пвл - повелительная форма глагола;

-1л, 2л, 3л - первое, второе, третье лицо;

-0 - неизменяемое;

-кр - краткость (для прилагательных и причастий);

-сравн - сравнительная форма (для прилагательных);

-имя, фам, отч - имя, фамилия, отчество;

-лок, орг - локативность, организация;

-кач - качественное прилагательное;

-вопр,относ - вопросительность и относительность (для наречий);

-дфст - слово обычно не имеет множественного числа;

-опч - частая опечатка или ошибка;

-жарг, арх, жаргонизм, архаизм, профессионализм;

-аббр - аббревиатура;

-безл - безличный глагол.

Как уже было сказано, одной словоформе может соответствовать много морфологических интерпретаций. Например, у словоформы стали две интерпретации:

-{СТАЛЬ, C, "но", ("жр,ед,рд", "жр,ед,дт", "жр,мн,им", "жр,мн,вн") };

-{СТАТЬ, Г, "нп,св", ("мн,дст,прш")}.

В данном случае разрабатывать данный компонент не обязательно, так как это является очень трудоемкой и длительной работой. Тем более в открытом доступе присутствуют многочисленное количество готовых библиотек. Одна из многих присутствует на сайте www.aot.ru - это COM-интерфейс морфологического анализатора системы Диалинг. Для Unix-разработчиков, к сожалению нет специального документа, но в целом Unix-версия повторяет структуру всех представленных интерфейсов, достаточно только переименовать основные типы (BSTR в string, BOOL в bool и т.д.).

Пакет содержит COM-объект морфологии, бинарники русского словаря и пример использования COM-объекта на С++. Все готово для проведения морфологического анализа. Так же присутствует описания всех интерфейсов.

 

.3 Синтаксический анализ

 

Цель синтаксического анализа - построение групп на предложении. Синтаксическая группа - это отрезок (первое слово группы - последнее слово группы) в предложении, для которого указан подотрезок - его главная группа. В частном случае группа - одно слово. Как видно из определения, синтаксические группы неразрывны, а из того, что две группы пересекаются, следует, что одна лежит в другой (т.е. является ее подотрезком).

Синтаксическую структуру предложения можно представить в виде дерева: корень (нулевой уровень) - само предложение; узлы -синтаксические группы (далее просто группы); листья - элементарные группы (слова); ребра - отношение "лежать непосредственно в" (А->В значит, что В лежит в А и при этом нет такой группы С, что В лежит в С и С лежит в А).

До начала работы анализатора каждое слово - группа первого уровня (группы первого уровня не входят ни в какие группы кроме предложения) и кроме корня других групп нет. Результатом работы является "дерево" предложения, описывающее лингвистические отношения подчинения. По сути это и есть математическая модель предложения на естественном языке.

.4 Семантический анализ

Последним этапом является построения семантической сети в виде ориентированного графа. В результате, вершины графа соответствуют объектам текстовой семантики, а дуги задают отношения между ними. Часто, вершинами графа называют семантическими узлами, а дуги - семантическими отношениями.

На входе семантического анализа подается синтаксическое представление текста и все семантические словари, тезаурусы, привлеченные к реализации в системе.

На выходе построенная семантическая сеть. Пример такой семантической сети можно увидеть на рисунке 3.1 по информации заключенной в следующем тексте: "Петух Петя является птицей и он умеет кукарекать. Попугай Кеша живет у моего одноклассника Васи. Попугай - птица. Птицы являются животными. Медведь - это животное, имеющее темный цвет".

 

Рисунок 3.1 - Пример семантической сети

 

Традиционный школьный синтаксис, который строится на понятии согласования, управления и примыкания, позволяет очертить круг синтак

s