А.В.Кашкина. Квантитативный анализ лексики русских поэтов первой половины XVIII dtrf
А. В. Кашкина (Воронеж)
Квантитативный анализ лексики русских поэтов первой половины XVIII века
A. V. Kashkina (Voronezh) A quantitative analysis of Russian poetic language (the 1st half of the 18th century)
The article studies the language of Russian poetry using quantitative methods. The author analyses such poets as Lomonosov, Sumarokov, Kantemir, Prokopovich and Trediakovsky to determine the specific features of Russian poetic language in the beginning of the 18th century. The data are summarized in a table that shows the words that the poets’ lexicons have in common. This article makes part of a greater work that covers the evolution of Russian poetic language during the 18th – 20th centuries.
Введение
Цель настоящей работы – выявить общее и частное в лексическом составе языка произведений русских поэтов начала XVIII века. Таким образом, в данном исследовании необходимо решить следующие задачи: 1) с помощью квантитативных методов собрать информацию о составе словаря каждого из поэтов первой половины XVIII века; 2) сопоставляя данные о лексике произведений разных авторов, определить сходные и различные черты. Квантитативные методы используются для исследования литературных произведений уже довольно длительное время. Научной основой для их применения стали законы Ципфа, описывающие статистическую структуру любого текста на естественном языке: 1) произведение вероятности обнаружения некоторого слова в тексте на ранг его частоты – константа, сохраняющая своё значение для всех текстов на данном языке; 2) частота и количество слов, входящих в текст с данной частотой, связаны между собой (Zipf 1949: 1965). Эти законы позволяют выделить из частотного словаря какого-либо текста или совокупности текстов ключевые слова. Первооткрывателем объективного направления в решении вопросов анализа и атрибуции текстов в отечественном литературоведении стал Н. А. Морозов, который предложил рассматривать высокочастотные, общие для всех родов литературы языковые элементы. Результат анализа текста, по Морозову, имеет вид графика (лингвистического спектра) распределения частоты встречаемости различных языковых элементов, сгруппированных в какой-либо грамматический класс (Морозов 1915). Однако все результаты работы данного метода зависят от объёма анализируемого текста. Польский исследователь Е. Ворончак пришел к выводу, что границей объёма текста, ниже которой результаты его статистического анализа не достоверны, является пять тысяч словоформ (Woronczak 1967). Основой проведения сравнительного анализа языка русской литературы являются частотные словари, составляемые по текстам отдельных авторов. Первые отечественные работы подобного рода – это «Словарь языка Пушкина» (СЯП 1961) и «Частотный словарь языка М. Ю. Лермонтова», вышедший в составе «Лермонтовской энциклопедии» (ЛЭ 1981). В настоящее время многие лингвисты занимаются сопоставительным анализом литературы с применением квантитативных методов. Наиболее полное исследование русской литературы было проведено В. С. Баевским, И. В. Романовой и Т. А. Самойловой, которые на материале 37 частотных словарей русских поэтов XIX-XX веков рассмотрели русскую лирику как в синхронии, так и в диахронии (Баевский, Романова, Самойлова 2003). А. А. Кретов в своей статье (Кретов 2008: 353-366) анализирует лексический состав языка поэзии Кольцова, выявляя ключевые слова (архетипы). Из зарубежных работ по данной тематике наболее полным является исследование Жозефины Майлз «The continuity of poetic language; the primary language of poetry, 1540’s-1940’s» (Miles 1965)
Методологические основы исследования
Для проведения исследования применялись следующие методы: а) квантитативный метод, то есть, определение абсолютной и относительной частоты словоформ; б) метод определения авторских весов лексики. Абсолютная частота словоформы – это число встреч данной словоформы в исследуемом тексте. Относительная частота (частотный вес) словоформы зависит от абсолютной частоты словоформы в анализируемом тексте, и определяется по формуле, предложенной В. Т. Титовым (Титов 2004: 15):
где ∑r – сумма единиц всех рангов (то есть,. общее количество словоформ в частотном словаре), R1-i – сумма единиц (абсолютных частот) от первого до данного ранга. Функциональный вес словоформы в тексте вычисляется по той же формуле, что и частотный вес, но в качестве критерия для присвоения словоформе определённого ранга выступает не её частота, а её длина в звуках. Авторский вес словоформы определяется как разность относительной частоты и функционального веса словоформы. Используется метод определения авторских весов, так как частота словоформы (как абсолютная, так и относительная), зависит и от длины словоформы в звуках: более короткие словоформы употребляются чаще, чем более длинные. Поэтому для получения более точного и полного представления как о языке конкретных поэтов, так и о языке поэзии определённой эпохи необходимо рассматривать авторский вес используемой в поэтическом творчестве лексики. Принципы отбора лексического материала для анализа В данной работе анализируются словоформы, а не слова. По мнению А. А. Кретова, «ориентируясь на лемматизированный частотный словарь, единицами которого являются слова (представленные всеми своими словоформами в тексте и только одной словарной формой – леммой – в словаре), частота которых равняется суммарной частоте всех их словоформ, мы получаем обобщённую и неизбежно огрублённую картину» (Кретов 2008: 353-366). Таким образом, анализ нелемматизированного словаря способен дать более полное представление о составе языка поэзии. В настоящем исследовании рассматриваются существительные, прилагательные и полнозначные глаголы, так как они более характерно показывают особенности языка конкретного автора или эпохи, чем, например, предлоги. Кроме того, у отобранных для анализа словоформ как частотный, так и функциональный вес должны превышать некоторое значение. Так, А. А. Кретов, исследуя частотный состав языка поэзии Кольцова, предлагает по каждому из этих параметров выбрать «около тысячи словоформ с максимальными весами. По частотному параметру такими окажутся 1174 словоформы с частотой 3 и более, а по функциональному параметру (длине) такими окажутся 904 словоформы длиной в 4 звука и менее» (Кретов 2008: 353-366). В настоящей работе пороги для частоты и длины словоформ установлены следующим образом: 1) для частоты – с помощью вычисления среднего арифметического всех частот (для каждого автора эта величина индивидуальна, так как зависит от объёма анализируемого текста); 2) для длины – рассматриваются словоформы с длиной ≤ 8 звукам.
Материал исследования
В настоящей работе рассматриваются произведения следующих русских поэтов первой половины XVIII века: М. В. Ломоносова, А. Н. Кантемира, В. К. Тредиаковского, А. П. Сумарокова, Феофана Прокоповича. В данном исследовании используются наиболее полные из доступных собраний сочинений каждого из авторов. Информация об объеме проанализированного материала (в словоупотреблениях) представлена в Табл. 1.
Таблица 1. Объем изученного материала
Поэт
Кол-во
словоупотр.
А. Н. Кантемир
М. В. Ломоносов
Феофан Прокопович
А. П. Сумароков
В. К. Тредиаковский
1408
4530
925
4529
3220
Итого
14612
Результаты исследования
Рассмотрим данные, полученные при анализе произведений поэтов начала XVIII века.
Таблица 2. Частотный состав лексики произведений М. В. Ломоносова
Рассмотрим сначала словоформы с точки зрения их абсолютной и относительной частоты. Прежде всего, следует отметить незначительное количество прилагательных и глаголов (по 2 словоформы). Так как Ломоносов написал 20 торжественных од, в его языке присутствуют словоформы, объединенные общей темой «власть» (власть, монарх, великий). Но поэта интересовал и внутренний мир человека, его переживания (радость, страх, напасти, дух, сердца, честь). Кроме того, в поэзии Ломоносова присутствует отображение природы (земля, земли, горы, поля, ветр, воды, лес) и городского пейзажа (град, стен, крепости, дом). Значительно количество архаических словоформ, церковнославянизмов (глас, взор, верьхи и т. д.). 10 словоформ с максимальным авторским весом – крепости, отвратить, великий, напасти, врагов, радость, монарх, смерти, страх, сердца. Как можно видеть, помимо существительных, среди словоформ с максимальным авторским весом имеется 1 глагол и 1 прилагательное. Длина словоформ с наибольшим авторским весом довольно значительна – от 5 до 8 звуков. Также можно отметить, что значительное количество этих словоформ связано с описанием чувств человека (радость, страх, сердца), его взаимоотношений с миром (врагов, напасти, монарх, великий). Таким образом, именно человек и общество являются центральной темой творчества Ломоносова. В целом поэзии Ломоносова присущ скорее философский, чем лирический характер.
Таблица 3. Частотный состав лексики произведений А. Н. Кантемира