WWW.INFO.Z-PDF.RU
БИБЛИОТЕКА  БЕСПЛАТНЫХ  МАТЕРИАЛОВ - Интернет документы
 


«ФЕДЕРАЛЬНОЕ Государственное автономНОЕ образовательное учреждение высшего образования «Новосибирский НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ государственный ...»

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ

ФЕДЕРАЛЬНОЕ Государственное автономНОЕ образовательное

учреждение высшего образования

«Новосибирский НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ государственный университет»

(нОВОСИБИРСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ, НГУ)

ФакультетМеханико – математический

КафедраПрограммирования

Направление подготовкиМатематика и компьютерные науки

ВЫПУСКНАЯ КВАЛИФИКАЦИОННАЯ РАБОТА БАКАЛАВРА

Лучко Лилия Георгиевна

(Фамилия, Имя, Отчество автора)

Тема работы:

Разработка и реализация электронного Словаря – справочника поэтических образов

«К защите допущена»Научный руководитель Заведующий кафедрой, д.т.н., доцент,

д.ф.- м.н., профессорв.н.с. ИВТ СО РАН.Марчук А.Г /________Барахнин В.Б./__________

(фамилия, И., О.) (подпись, МП) (фамилия, И., О.) (подпись, МП)

«…»………………20…г.«…»………………20…г.

Дата защиты: «…» ……………20…г.

Новосибирск, 2017

Содержание

TOC \o "1-3" \h \z \u Введение PAGEREF _Toc483675962 \h 3Обзор литературы PAGEREF _Toc483675963 \h 61.Постановка задачи PAGEREF _Toc483675964 \h 142.Математическая модель словаря поэтических образов PAGEREF _Toc483675965 \h 153.Реализация PAGEREF _Toc483675966 \h 23Заключение PAGEREF _Toc483675967 \h 30Литература PAGEREF _Toc483675968 \h 32

ВведениеС приходом эпохи компьютеров и интернета перед многими исследователями встал вопрос о систематизации и упорядочивании информации, ее структурировании и возможности быстрого доступа к необходимому ресурсу для дальнейшего изучения. Одними из таких источников информации являются литературные произведения, а в частности, поэзия. Перед филологами стоят множественные задачи по созданию и систематизации больших объемов информации. Например, важной задачей является изучение структуры стихотворного текста, а также ее автоматизация.

Для того чтобы понять, как автоматизировать процесс анализа поэтического текста, и избавить исследователя от трудоемкой и рутинной работы, необходимо понять общую структуру и план анализа стихотворения. Прежде всего, поэтический текст имеет определенную иерархию: метр, ритм, фонетика, лексика, грамматика, литературный и речевой жанры, тематика. Это – своеобразные смысловые единицы поэтического текста, связанные между собой и влияющие друг на друга. Нужно заметить, что низшие уровни поэтического текста достаточно хорошо изучены, и повторить алгоритм реализации данного процесса не составит труда. С высшими уровнями дело обстоит несколько иначе. Их исследование затруднено по ряду причин, в том числе, в виду большого объема материала, не изученности и сложности реализации.

Остановимся подробнее на проблеме выявления тематики поэтического текста. Для выяснения тематики необходимо определить набор слов, используемых автором стихотворения и объединенных общей тематикой. Понятно, что совпадение лексем в разных поэтических текстах маловероятно, и кроме того, можно встретить множество различных поэтических образов. Многообразие этих образов требует, в свою очередь, определенного учета и систематизации, что подводит нас к необходимости создания соответствующей базы данных.

База данных поэтических образов создавалась на основе «Словаря поэтических образов» (М.,1999) доктора филологических наук Н. В. Павлович (Институт русского языка РАН) [1]. Словарь поэтических образов – это некое отображение из мира реальных, привычных слов в мир поэтических образов и представлений. Он содержит парадигмы образов русской поэзии и прозы XVIII-XX вв., около 40000 образов, более 600 авторов. Таким образом, данный словарь достаточно полно отражает мир поэтических образов и позволяет проследить эволюцию каждой парадигмы, а также оценить вклад в ее развитие соответствующего поэта.





Помимо базы данных поэтических образов, необходимо создать базу данных словоформ, так как при выявлении в стихотворениях схожих поэтических образов мы можем иметь различные падежи, числа или местоимения, заменяющие какие-либо существительные (например: тигр, тигры, тигра, тигрица, тигрицу и т. д.). Данная база данных создана на основе «Грамматического словаря русского языка» (М., 1980) академика Российской академии наук  А. А. Зализняка [2].

Что касается уникальности разработанных баз данных поэтических образов и словоформ, то она заключается в том, что в ней будут учитываться структуры словарей. Впоследствии словари будут интегрированы в общую программную систему, предназначенную для автоматизации анализа русских поэтических текстов (информационная система комплексного анализа поэтических текстов: http://poem.ict.nsc.ru/), что значительно приблизит всех авторов, работающих над данной проблемой, к ее решению.

Обзор литературыПрежде чем приступить к обзору ранее существовавших и опубликованных статей и книг, связанных с темой поэтических образов, познакомим читателя с некоторой общеизвестной стихотворной терминологией. Имея в наличие стихотворный текст, мы можем разбить его на некие взаимосвязанные отрезки. В зависимости от вкладываемого смысла в понятие «отрезок», мы получим различные системы стихосложения. Если принять за отрезок слог, то возникает силлабическая система; в тонической системе отрезком является слово, а в силлабо-тонической – соотносятся группы слогов, с чередованием ударных и безударных.

В русскоязычной стихотворной истории и культуре встречаются все три системы, но, поскольку, в данной работе рассматривается Словарь поэтических образов XVIII-XX вв., предпочтение следует отдать терминологии тонической и силлабо-тонической систем. Рассмотрим такие понятия, как метр и ритм. Необходимо выделить так называемые сильные (икты) и слабые места, эту процедуру можно осуществить с помощью прочтения стиха вслух: выделенные голосом слоги будут являться сильными, а находящиеся между ними слабыми местами. Согласно Л. Я. Гинзбург [3] «чередование сильных и слабых мест называется метром», а ритм есть не что иное, как «реальное чередование сильных и слабых звуков, возникающих в результате взаимодействия естественных свойств речевого материала и метрического закона» [4]. В силлабо-тонической системе выделяют пять метров: хорей и ямб – двусложные (ударение на первый и второй слоги, соответственно), дактиль, амфибрахий и анапест – трехсложные (ударение на первый, второй и третий слоги). Чередование групп ударных и безударных слогов дает нам такое понятие, как стопность стихотворения, а количество стоп в метре образует размер [5].

Далее следует рассмотреть иерархию стихотворного текста. В нее входят: метр, ритм, фонетика, лексика, грамматика, речевой жанр (композиционно-речевое целое), тематика, литературный жанр. К синтаксическому уровню поэтического текста относятся такие смысловые единицы, как метр, ритм и фонетика [6]. Для автоматического определения метрической структуры в статье В. Б. Барахнина и др.[7] был использован алгоритм, в котором строится числовой вектор и по определенным правилам находится стихотворный размер.

Для фонетического анализа разработан модуль фонетического разбора слов, который создан на основе акцентуации слов с помощью последовательного разбора слов по правилам фонетики и орфографии. При этом фонетическая транскрипция сильно зависит от расположения ударения, а это является некой проблемой, поскольку словарь ударений является неполным. Эта проблема может быть решена следующим образом: если при разборе стиха мы получили его метроритмические характеристики (проблем с ударением при этом не возникло), то на основе этих характеристик можно установить акцентуацию слова, которого нет в словаре и провести его фонетический разбор.

В статье А. В. Козьмина [8] представлен интересный алгоритм определения ритма поэтического текста:

Для всех строк составляется массив, состоящий из конечных слов.

Для каждой пары слов из массива, полученного на первом шаге, проверяется и записывается как компонент вектора совпадений (1) ударного гласного, (2) заударного согласного, (3) позиция ударного гласного относительно конца слова.

В качестве рифмующейся пары указывается та, что имеет одинаковые компоненты в соответствующих им векторах.

Здесь рифма рассматривается как пара словоформ, которая состоит из похожих символов в определенных позициях, при этом схожесть символов и позиции, определяется по договоренности. В данной версии для признания пары рифмой необходимо совпадение равно сложности, ударной гласной и заударного гласного. Представленный алгоритм не применим для составных рифм (рифмующаяся пара состоит из двух и более слогов).

Теперь рассмотрим семантический уровень, к нему относят лексику и грамматику. Синтаксический уровень относят к низшим уровня стихотворного текста, а семантический – к высшим. Для того чтобы исследовать высшие уровни стиха, необходимо иметь определенные статистические данные о нижних уровнях, то есть низшие уровни осуществляют непосредственное влияние на высшие. Однако Д. М. Магомедова указывает две точки зрения: метр и ритм никак не соотносятся с тематикой стихотворения; метр и ритм оказывают непосредственное влияние на тематику произведения, в этом случае надо полагать, что каждый размер стихотворного текста имеет определенную эмоциональную окраску и посыл [5].

Для лексического анализа стихотворения требуется создание его лексического словаря, в котором будут найдены доминирующие части речи, семантические поля и фразеологии (употребляемые метафоры). В процессе конкордации стихотворения будут найдены отдельные лексемы, однако, интересны также и словосочетания. Среди программ, решающих такую задачу, можно назвать стеммер компании «Яндекс». Этот стеммер извлекает слова, как заданной части речи, так и словосочетания с определенной структурой (например, (прилагательное) + (существительное), (существительное) + (существительное в родительном падеже)).

Для грамматического анализа требуется определить, к какому стилю относится текст (именному или глагольному), а также необходимо рассмотреть лицо, залог и время. Для выявления стиля требуется анализ лексического словаря, а для залога, лица и времени используется морфология. Чтобы определить тематику стихотворения, требуется исследование стихотворения на «человеческом» уровне, то есть, необходим такой аппарат, который будет анализировать текст так, как его воспринимает человек, это – довольно сложная задача для автоматизации. Исследование тематики включает в себя анализ лексического состава текста и разбиение его на тематические поля. Очевидно, что лексемы в разных стихотворных произведениях едва ли будут совпадать, однако, можно ожидать совпадение поэтических образов или синонимов.

Теперь обратимся к истории создания словарей. Одним из первых словарей языка поэта был «Словарь к стихотворениям Державина» Я. К. Грота [9], созданный в конце XIX века. Далее, в XX веке происходило развитие функций и принципов лексикографического описания, формирование целей и задач, а также структуры словарей. Одними из важных событий в мире лексикографического анализа стало появление «Словаря языка Пушкина» (толковый словарь языка, которым пользуется писатель) [10], «Поэт и слово. Опыт словаря» (словарь поэтической речи) [11], «Словаря автобиографической трилогии М. Горького» (полный стилистический словарь) [12]. В 2001-2008 г. г. вышло несколько томов «Словаря языка русской поэзии XX века» [13], который объединяет в себе десять поэтов и является объяснительным и регистрирующим справочником. Так же, авторы ставят перед собой вопрос о типологии словарей и месте, которое они занимают в общей лексикографии. Некоторые ученые считают словари языка писателя словарями – справочниками (Л. В. Щерба [14]), другие выделяют полные и дифференцированные словари (Б. А. Ларин [15]).

Кроме того, существуют упоминания об историческом и стилистическом уклонах (О. И. Трофимкина [16]), и предложение О. И. Фоняковой [17] и Л. Л. Шестаковой [18] классифицировать словари по системе различных критериев. В своей типологии Л. Л. Шестакова выделяет непосредственно словари образов, словарем образов является, например, «Словарь тропов Бродского» В. П. Полухиной и Ю. К. Пярли [19], который предлагает классификацию тропов в позициях субъекта, предиката, объекта, атрибута, адверба, приложения, обращения и в сравнении. Но самым интересным словарем поэтических образов является, пожалуй, «Словарь поэтических образов»

Н. В. Павлович [1] – это свод всех парадигм поэтов XVII-XX вв., парадигма образов здесь определяется как пара устойчивых смыслов, которые связанны отношением отождествления («человек-заяц»), данному автору принадлежит еще и монография «Язык образов. Парадигмы образов в русском языке» [20].

Н. А. Афанасьева в своей статье [21] говорит о том, что в последние десятилетия в науке возрос интерес к «поэтическому образному словоупотреблению». Автор упоминает как монографии, так и сборные словари, осуществляющие разные подходы к исследованию поэтических образов, однако, подчеркивается необходимость создания словаря, включающего в себя полное описание семантики для каждого образа, а также способность проследить динамику развития поэтической образности каждой эпохи. Н. А. Афанасьева считает, что таким словарем мог бы стать словарь традиционных поэтических образов, то есть, такой словарь, который имеет довольно полный анализ традиции употребления образов со стойкой семантикой и словесными выражениями. При этом «Образ может создаваться как названными именами существительными, их парадигматическими вариантами, так и словами разных частей речи семантического поля указанных лексем», в то время как в ранее указанных словарях внимание уделялось в основном употреблению имени существительного.

Актуальность такого словаря подтверждается его целью выявить новое в плане формы и содержания, привнесенное в образ поэтом. Это позволяет выявить динамику развития традиционных образов, найти различия в развитии разных эпох, школ и авторов, кроме этого, можно сравнить традиционные русские и европейские произведения и найти национальную составляющую, созданную исключительно русскими поэтами. Следует отметить, что традиционный образ часто становился клише, то есть этот образ воспринимался как банальный, стандартный, но что могло сделать его новым? Ответ на этот вопрос как раз таки можно будет найти в словаре традиционных поэтических образов.

Для получения ответов на сформулированные выше вопросы и задачи, требуется проанализировать трехвековое развитие поэзии, учтя при этом не индивидуальные применения образов авторами, а целый спектр словоупотребления данной эпохи. Текст в словаре должен отражать характерные особенности образов в каждом конкретном стихотворном тексте, способы его преобразования автором, используя при этом структуру образа, а в основе структуры обычно лежит скрытое сравнение (метафора), то есть одно абстрактное понятие сопоставляется с другим, более конкретным и ясным в понимании. Таким образом, мы получаем взаимодействие слов с разными семантическими полями.

Часто в тексте встречаются конкретные представления, абстрактные понятия и семантические поля «человек». Эти три понятия образуют схему традиционного поэтического словаря. Они могут существовать в полном виде, и тогда мы будем иметь полную схему традиционного поэтического образа, либо может отсутствовать поле «человек», что допустимо, либо в тексте может не присутствовать абстрактное понятие, но в таком случае образ усложняется и становится менее понятным для восприятия.

Кроме всего прочего, словарь должен соблюдать хронологию поэтического текста. Первая часть включает примеры из М. В. Ломоносова, А. Д. Кантемира, В. К. Тредиаковского и А. С. Сумарокова, то есть поэтов XVIII века. Вторая часть содержит творчество поэтов второй половины XVIII века. В каждой части образы составлены по основному слову – компоненту образа.

Постановка задачиДан оцифрованный словарь «Поэтических образов» Н. В. Павлович в формате.docx. Создать программу, которая будет извлекать пары «слово-образ» из исходного файла и заносить их в базу данных. Кроме того, необходимо создать web-интерфейс для поиска слов и образов, а также для добавления новых, не входящих в данный словарь, пар «слово-образ».

Дан «Грамматический словарь русского языка» А. А. Зализняка в оцифрованном виде (http://starling.rinet.ru/indexru.htm), необходимо извлечь все формы слов и занести их в базу данных в соответствии с частью речи, ударением, числом, лицом и т.п.

Необходимо построить математическую модель словаря поэтических образов, показать в ней несимметричность образов и их иерархичность. Отразить построенную математическую модель в базе данных, произведя разметку (отметить симметричные образы) и отразить их иерархию.

Математическая модель словаря поэтических образовВведем понятие поэтического образа:

Поэтический образ – это небольшой фрагмент текста (слово, несколько строк, предложение, строфа и т. д.), в котором сближаются противоречащие в широком смысле понятия (логически противоречивые, противоположные, несовместимые и т. д.), т. е. такие понятия, которые обычно не сближаются в общелитературном языке.Примеры образов: река времен (сближаются время и вода), солнце – желтый жираф (солнечный свет и животное), зеленые пики осоки (растение и оружие), черное солнце (свет и тьма), в коробке рта языка сигара (язык во рту – сигара в коробке).

В основе словаря – идея о том, что каждый образ существует в языке не сам по себе, а в ряду других – внешне, возможно, различных, но в глубинном смысле сходных образов – и вместе с ними реализует некий общий для них смысловой инвариант, т. е. модель, или парадигму.

Введем x,y,z – переменные (слова или образы),,, – отображения (отношения отождествления между словом и образом).

Тогда x,y,zL, где L – язык (множество слов, порожденное русским алфавитом).

Отношение отождествления между словом и образом можно задать как функцию, то есть:

:xy(2.1)

Например, «роза вен»:

О пути земные, сетью жил,

Розой вен вас Бог расположил!

(Гумилев)

«Мечты – листья»:

Сменит не раз младая дева

Мечтами легкие мечты;

Так деревцо свои листы

Меняет с каждою весною.

(Пушкин)

В общем случае словарь несимметричен, поэтому:

¬-1:yx (2.2)

Например, «чайник – сирена»:

А вот и чайник закипел,

Эмалированный, сиреневый,

И он отвлёк меня от дел,

И он напомнил мне сирены вой.

Совсем недавно это было:

Во тьме ночей необычайных

Сирена выла, выла, выла...

И не напоминала чайник!

(Глазков)

В данном стихотворении четко прослеживается связь чайника с сиреной, однако, очевидно, обратной связи в таком контексте нет.

В случае симметричности образа:

:xy

-1:yx(2.3)

*-1=I,

где I –тождественное отображение.

Например, «глаза – огонь»:

Да Павлово одно воззренье,

Как огнь из туч, врагов сразит (о Павле I).

(Державин)

И потух огонь очей.

(Пушкин)

И симметричный образ «огонь – глаза»:

Это лесного пожара

Огненные глаза.

(Гиппиус)

Там виден мигающий тихо

Фосфорический глаз,

Как будто большая волчиха

Идет по долине сейчас.

(Луговской)

Еще примеры симметричных образов: «человек – растение» (богатырь – дуб) и «растение – человек» (дуб – богатырь); «сабля – месяц» и «сабля – луна»; «радуга – пояс» и «пояс от платья – радуга»; «время – ткань» и «кафтан – время».Отсутствие транзитивности:

:xy, :yz, :xz|=*(2.4)

Например, «человек – скала» и «скала – гигант», но при этом человек может не являться гигантом; «человек – орудие» и «орудие – машина», но человек не является машиной.Базу данных можно представить как

xiXf(xi)yiY yi,

(2.5)

где xiX – множество прообразов, а yiY – множество поэтических образов.

Стоит отметить, что под «симметричностью» понимается понятие биективности функции, то есть функция одновременно обладает и сюръективностью, и инъективностью. Сюръекция – это отображение f:XY из множества X на множество Y, при котором любой элемент множества Y является образом хотя бы одного множества X или формально: yYxX:y=f(x). Инъекция – это отображение f:XY множества X в множество Y, при котором разные элементы множества X переходят в разные элементы множества Y, то есть, если два образа при отображении совпадают, то совпадают и прообразы: fx=fyx=y. При биективном отображении элементу одного множества соответствует ровно один элемент другого множества, при этом существует обратное отображение, которое так же обладает свойствами инъективности и сюръективности. Понятия «симметричность» и «несимметричность» используются с целью более легко восприятия и понимания термина людьми, не сведущими в математической терминологии.

Кроме прочего, отметим понятие толерантности. Это – отношение, которое обладает свойствами рефлексивности и симметричности, но не транзитивности. Таким образом, симметричные поэтические образы являются толерантными.

Рассмотрим подробнее существующие варианты отображений между поэтическими образами и их прообразами:

Отображение из слова X в фиксированный образ B:

XB, символ будет обозначать сопоставление слову X фиксированного образа B, при этом на месте слова X может находиться ряд схожих по значению слов x1,…,xnX, которым сопоставляется образ B, причем этот ряд синонимов включает в себя местоимения и существительные в творительном падеже. Обозначим ряд как X, тогда наше отображение примет вид

XB или x1,…,xnB. (2.6)

Например, «солнце – колокол» имеет подобные образы: «колокольное солнце», «солнце – набат». Или ряд: «луна – колокол», «колокол луны», «лунный колокол», «месяц бил в колокол», «женщина – луна»; «человек – тигр», «воин – тигр», «фараон – тигр», «женщина – тигрица», «поэт – тигренок».А по комнате, как тигрица,

В черном платье и кружевах,

Ильина ходила.

(Адамович)

Луна есть образ ваш: ее сребристый луч

Тьму ночи озаряет,

А прелесть ваша нам отраду в грудь вливает

Среди печальных жизни туч (о женщинах).

(Карамзин)

Отображение из фиксированного слова A в ряд образов Y:

Также будем обозначать данное отображение, как и предыдущее:

AY. В этом случае, мы имеем фиксированный «прообраз» A и ряд образов Y. То есть

AY или Ay1,…,yn,

(2.7)

y1,…,ynYНапример, «глаза – существо», «глаза – орудие», «глаза – свет», «глаза – драгоценное», «глаза – огонь» и т.д.Коль много стрел опасных

Единый взгляд ее стремит!

(Костров)

Четою птиц летевших

Косые очи подымались кверху

Под тонкими бровями.

(Хлебников)

Симметричность отображений между рядом прообразов (образов) A и образами (прообразами) B:

AB и BA(2.8)

Например, «икона – человек», «икона – свет», «икона – солнце».

И с другой стороны, «солнечный свет – икона», «золотой иконостас», «заря – иконный венчик», «луч – образок», «человек – икона», «женщина – икона», что доказывает симметричность данного образа в русской поэзии.Представленные выше примеры симметричности образов являются, скорее, исключениями из общего множества парадигм, что, во-первых, в некотором смысле выделяет эти образы в отдельную группу, а, во-вторых, представляет интерес для исследования, поскольку показывает четкую устойчивость пары «слово – образ», и, вероятнее всего, её характерность для определенной эпохи или школы поэтов.

РеализацияВ данной дипломной работе ставилась задача: разработать и реализовать Словарь – справочник поэтических образов, отражающий несимметричность отношений между образами и их иерархичность. Средства, используемые для создания базы данных – язык SQL, сервер Apache, для более легкого администрирования и управления базой используется phpMyAdmin.

Язык SQL был выбран в виду своей распространенности, интуитивной понятности и доступности. Он является основой многих Систем управления базами данных (СУБД), поскольку отвечает за запись и чтение данных, принимает SQL-запросы и обеспечивает доступ к реляционным базам данных. Помимо этого, язык SQL сдандартизирован международными организациями, подходит для локального и многопользовательского использования, время выполнения запроса минимально, продукт является бесплатным и доступным.

Apache HTTP-сервер также является одним из самых популярных свободных web-серверов для осуществления серверной работы в виду своей кроссплатформенности (поддерживает операционные системы Microsoft Windows, Linux, Mac OS и другие), гибкости, мощности, возможности расширения с помощью модулей и возможности исполнять программы на разных языках без использования дополнительного программного обеспечения.

Web-приложение phpMyAdmin – это web-интерфейс для работы с СУБД MySQL, позволяет через браузер осуществлять администрирование сервера MySQL, выполнять SQL-запросы и визуально следить за таблицами и базами данных. Кроме того, можно осуществлять быстрый экспорт и импорт таблиц в базы данных, осуществлять поиск по базам, таблицам и пользователям. Существенным плюсом является то, что с помощью этого приложения можно избежать непосредственного ввода SQL-запросов, что значительно облегчает работу.

Использовалась программа Denwer, включающая в себя дистрибутивы всех вышеперечисленных программ. Она создана для разработки и отладки web-приложений на локальном компьютере под управлением Microsoft Windows. Этот набор хорош тем, что прост в установке, не требует ручного настраивания Apache, подключения дополнительных модулей и не перегружает систему.

Язык Python осуществляющий связь с сервером Apache, выбран в виду легкости в изучении, удобочитаемости кода и поддержки объектно-ориентированного стиля программирования. Так же стандартная библиотека языка позволяет решать множество задач без добавления дополнительных модулей, а при возникновении такой необходимости легко можно добавить множество пакетов сторонних производителей.

Web-интерфейс для поиска пар «слово – образ» и добавления новых образов, не входящих в существующую базу данных, был создан с помощью языка гипертекстовой разметки HTML. Выбор так же обусловлен простотой изучения, быстротой загрузки html-страницы, кроссплатформенности (распознается почти идентично во многих браузерах), стандартизированности языка и его распространенности.

Основная проблема, встающая на пути реализации базы данных, состоит в том, что из исходного файла формата.pdf необходимо извлекать пары «слово – образ», однако, сделать это напрямую довольно проблематично. Поэтому сначала Словарь был переведен в формат.txt, а затем с помощью программы на С# (выходные данные программы см. рис.3.1.), пары слов были занесены в базу данных (см. рис.3.2).

Рис.3.1. Выходные данные программы

Рис.3.2. Структура базы данных

Но, к сожалению, в некоторых случаях в словах и образах встречались лишние или неправильные символы и буквы (результат неправильного распознавания или даже опечатки непосредственно в словаре), это обстоятельство требовало доскональной и тщательной проверки всех вносимых в базу данных, а это, в свою очередь, довольно трудоемкая процедура, требующая большого количества времени.

Словарь поэтических образов создан для встраивания в общую программную систему, предназначенную для автоматизации анализа русских поэтических текстов (http://poem.ict.nsc.ru/). Кроме того, предполагается, что он будет использоваться отдельно филологами/исследователями для поиска слов и/или образов. Для этой цели разработан web-интерфейс (см. рис.3.3.),

Рис.3.3. Поиск пар в базе данных

он позволяет производить поиск как по отдельному слову (образу), так и проверять существование заданной пары «слово – образ», выводить все образы соответствующие данному слову или букве алфавита. Кроме того, возможно занесение новой пары «слово – образ», при отсутствии таковой в базе данных (см. рис.3.4.). А это, в свою очередь, дает возможность расширить уже существующую базу данных.

Опишем общую схему работы, ее связи, цели и результаты (см. рис.3.5.). Данная работа может быть условно разделена на три уровня: на первом находятся базы данных словоформ и поэтических образов, интерфейсы поиска поэтических образов и добавления новых пар «слово – образ» в случае отсутствия таковой в уже созданной базе данных. Интерфейсы связаны с обеими базами данных с целью добавления, изменения, исправления информации и получения нужных данных пользователем. Данная часть работы является основой или «базой» для дальнейшего развития и исследований, и является полностью выполненной.

Второй уровень – это уровень автоматического исследования текста программой поиска поэтических образов. Данная программа взаимодействует с базами данных поэтических образов и словоформ, отправляет запросы к базам и, получив ответ, делает «выводы» о наличии или отсутствии поэтического образа в тексте. Кроме того, программа связана с интерфейсом взаимодействия с пользователем, который отображается в браузере и в которое исследователь может добавить стихотворный текст и получить соответствующие сведения о наличии или отсутствии некоторых поэтических образов.

На третьем уровне работы предполагается анализ нескольких достаточно объемных произведений, предварительно хорошо разобранных и изученных. После «ручного» исследования данные поэтические произведения необходимо проверить с использованием программы поиска поэтических образов и соответствующих баз данных. Получив результат работы программы, необходимо проанализировать его, привести статистику поиска образов в тексте, процент правильного нахождения образов и постараться максимизировать совпадения «ручного» и автоматического анализа текста, то есть, улучшить программу поиска поэтических образов.

Рис.3.4. Добавление пары «слово – образ» в базу данных

Рис.3.5. Общая схема программы

ЗаключениеБыла разработана математическая модель словаря, учитывающая несимметричность и не транзитивность поэтических образов (симметричность является исключением), затем на основе мат модели была создана полная база данных пар «слово – поэтический образ» с учетом структуры словаря и его иерархии (см. рис. 3.2.).

Был разработан и создан web-интерфейс на языке Python, выполняющий функции (см. рис.3.3.):

поиск слов по поэтическому образу;

поиск поэтического образа по слову;

вывод на экран всех слов и образов;

вывод на экран слов на определенную букву алфавита.

Также был создан web-интерфейс для добавления ранее не существующей пары «слово – поэтический образ» к базе данных поэтических образов. В данном интерфейсе существуют такие поля, как:

слово;

поэтический образ;

страница;

том.

Была создана база данных словоформ на основе «Грамматического словаря русского языка» А.А.Зализняка.

На данном этапе был полностью реализован первый уровень общей схемы (см. рис.3.5.). В дальнейшем планируется создание эффективной программы для поиска поэтических образов с высоким процентом эффективности. Так же планируется создать интуитивно понятный интерфейс для исследователя.

Далее необходимо собрать статистику на основе нескольких известных поэтических произведений, выяснить процент нахождения поэтических образов в тексте. После выполнения всех поставленных задач, необходимо интегрировать данную работу в общую программную систему, предназначенную для автоматизации анализа русских поэтических текстов (информационная система комплексного анализа поэтических текстов: http://poem.ict.nsc.ru/). Таким образом, данная задача требует дальнейшей разработки и анализа.

ЛитератураПавлович Н. В. Словарь поэтических образов // В 2т. 2-е изд., стереотип. – М.: Эдиториал УРСС, 2007.

Зализняк А. А. Грамматический словарь русского языка // 2-е изд., стереотип. – М., 1980. – 880 с.

Гинзбург Л. Я. О лирике // 2-е изд. – М.: «Интрада», 1997. – 409 с.

Квятковский А. П. Поэтический словарь // Науч. ред. Роднянская  И. – М.: Сов. Энцикл., 1966. – 376 с.

Магомедова Д. М. Филологический анализ лирического стихотворения // – М.: Издательский центр «Академия», 2004. – 192 с.

Gitt W. D. Ordnung und Information in Technik und Natur // In: Gitt W. (Hrsg.): Am Anfang war die Information. Graefeling: Resch K G, 1982.

Барахнин В. Б., Кожемякина О. Ю., Забайкин А. В., Хаятова В. Д.

Автоматизация комплексного анализа русского поэтического текста: модели и алгоритмы // Вестник НГУ. Серия: Информационные технологии. 2015. Том 13, выпуск 3.

Козьмин А. В. Автоматический анализ стиха в системе STARLNG // Компьютерная лингвистика и интеллектуальные технологии: Труды международной конференции «Диалог 2006» (Бекасово, 31 мая – 4 июня 2006 г.). – М.: Издательский центр РГГУ, 2006. С. 265 – 268.

Грот Я. К. Язык Державина // Сочинения Державина.– СПб., 1883. Т. 10. – 336 с.

Словарь языка Пушкина // Отв. Ред. Акад. АН СССР Виноградов В. В. В 4 т. – 2-е изд., доп. – М.: Азбуковник, 2000.

Поэт и слово: Опыт словаря // Отв. ред.  Григорьев В. П. – М.: Наука, 1973. – 455 с.

Словарь автобиографической трилогии М. Горького // Отв. Ред. Ковтун Л. С. В 6 т. – Л., 1974–1990.

Словарь языка русской поэзии XX века // Отв. ред. Григорьев В. П., Шестакова Л. Л. В 3 т. – М.,2001–2008.

Щерба Л. В. Опыт общей теории лексикографии //Щерба Л. В. Языковая система и речевая деятельность. – М.,2004. – 269 с.

Ларин Б. А. Основные принципы Словаря автобиографической трилогии М. Горького // Словоупотребление и стиль М. Горького. Л.: Изд. ЛГУ, 1962. С.3-11.

Трофимкина О. И. О разных типах словарей писателя// Вопросы стилистики: Межвуз. научн. сб. Вып. 5. Саратов,1972.

Фонякова О. И. Очерк развития писательской лексикографии в отечественном языкознании (1883–1990)// Из истории науки о языке: Межвуз. сб. памяти проф. Маслова Ю. С. – СПб.,1993.С.234-240.

Шестакова Л. Л. Авторская лексикография на рубеже веков. // Вопросы языкознания. – М.: Наука. 2007. С.116-129.

Полухина В. П., Пярли Ю. К. Словарь тропов И. Бродского // Материал сборника «Часть речи». – Тарту, 1995.

Павлович Н. В. Язык образов. Парадигмы образов в русском поэтическом языке // – М., 1995. – 491 с.

Афанасьева Н. А. Лексикографическое описание традиционных поэтических образов: к постановке проблемы // Мир русского слова 2013, вып. 1.



Похожие работы:

«Примечания: Количество узлов указывается на один конвейер. Выбор оборудования производится по каталогу ООО "Белохолуницкий машиностроительный завод" и по информационным данным завода. По со...»

«МИНИСТЕРСТВО РЕГИОНАЛЬНОГО РАЗВИТИЯ РОССИЙСКОЙ ФЕДЕРАЦИИПРИКАЗ от 5 июля 2011 г. N 320ОБ УТВЕРЖДЕНИИ СВОДА ПРАВИЛОБЕСПЕЧЕНИЕ АНТИТЕРРОРИСТИЧЕСКОЙ ЗАЩИЩЕННОСТИ ЗДАНИЙИ СООРУЖЕНИЙ. ОБЩИЕ ТРЕБОВАНИЯ ПРОЕКТИРОВАНИЯВо исполнение пункта 3 Постановления Правительства Российской Федерации от 15 февраля 2011 г....»

«Технический райдер группы Hok-keyWWW.HOK-KEY.COMСостав: 6 человек:2 Вокала-Гитара-Скрипка-Бас-гитара и бэк-вокал-Барабаны Оборудование на сцене1. Ударная установка: барабаны: бочка 20’-22’, том 12', том 14’, том 16’; стойки: одна стойка под hi-hat, четыре устойчивых стойки под тарелки с фетрами и креплениями (как минимум, три и...»

«Стандарт организации "Положение о порядке выдачи молока, равноценных пищевых продуктов или осуществления компенсационной выплаты". Разработан технической инспекцией труда Федерации профсоюзов Республики Саха (Якутия) Общие положения.1.1. Настоящее Положение разработано в соответствии с требованиями законодательства Российской Фе...»

«Проект ФЕДЕРАЛЬНОГО ЗАКОНАО ПРИМЕНЕНИИ ПОЛИГРАФА. Настоящий Федеральный закон определяет основные понятия, цели, принципы и области проведения опросов с использованием полиграфа в Российской Федерации, а также устанавливает основные требования к проведению таких опр...»

«Порядок формирования краткосрочных планов капитального ремонта Утвержден постановлением Правительства Оренбургской области от 21.12.2015 г. № 988-п "Об утверждении порядка установления необходимости проведения...»

«Список казахстанских участников торговой миссии в Кыргызстан, г.Бишкек Бизнес форум "Кыргызстан-Казахстан" Гостиница:  Jannat Hotels & Resorts Дата: 2-4 мая 2017 г. Цель поездки: налаживание прямых контактов с зарубежными предприятиями, продвижение продукции № Компания Отрасль...»

«Образовательный проект "ТЕМП", как один из механизмов  обеспечения качества образования Приоритетное внимание к естественно – математическому и технологическому образованию, п...»

«ПРОГРАММА ПРАКТИКИ к профессиональному модулю сварка и резка деталей из различных сталей, цветных металлов и их сплавов, чугунов во всех пространственных положениях 2016 г. Программа практики к профессиональному модулю разработана на основе Федерального государстве...»








 
2018 www.info.z-pdf.ru - «Библиотека бесплатных материалов - интернет документы»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 2-3 рабочих дней удалим его.