Language, Communication and Social Environment. Issue 8. 2010
published annually edited by professor Viacheslav B. Kashkin Язык, коммуникация и социальная среда. Выпуск 8. Воронеж: ВГУ; Наука-Юнипресс, 2010
ежегодное научное издание под редакцией профессора В.Б.Кашкина ISSN 2224-1078 (Online), ISSN 2224-0101 (Print) |
|
|
А.В.КашкинаСравнительный маркемный анализ: проблемы и перспективы
A. V. Kashkina (Voronezh) Comparative Markeme Analysis: Challenges and PerspectivesThe paper discusses the application of markeme analysis in comparing literary texts. The method was developed by Alexey Kretov who also coined two key notions: markeme and Index of Thematic Markedness. Markeme analysis is a quantitative approach which allows analyzing word frequency in the texts. In the first section of the paper the author discusses criteria for markeme allocation in the text. In her previous works she applied markeme analysis to Russian poetry. The present research questions whether it is possible to use the same method for comparing text from two literary traditions – Russian and English. The attempt to compare poetry with quantitative methods reveals several challenges for the researcher. The second section of the paper discusses problems which arise due to typological differences of Russian and English. The first problem crucial for automatic markeme allocation is correlation between pronunciation and orthographic forms of words in Russian and English. Grammatical and lexical homonymy poses the next problem. Yet another difference concerns the category of case: while in Russian the nominative case is one of the most reliable criteria for allocating markemes, it is totally irrelevant for English texts. Finally comes the question of semantic correlation between English and Russian lexemes. Comparative application of the markeme analysis suggests that more reliable criteria are needed for markeme allocation in different languages.
Ключевые слова: маркема, индекс тематической маркированности, количественный анализ, язык поэзии, сопоставительное исследование
Маркемный анализ – метод исследования текстов, опирающийся на понятия маркемы и индекса тематической маркированности, сформулированные А. А. Кретовым (Кретов 2007; 2008; Кретов, Воронина, Попова, Дудкина 2009). Индекс тематической маркированности (ИнТеМа) – это квантитативная характеристика встречаемости словоформы в том или ином тексте, вычисляемая по следующей формуле: ИнТеМа = Ч-вес – Д-вес, где Ч-вес – относительная частота словоформ, а Д-вес – их функциональный вес (зависящий от длины словоформы). Эти величины определяются по формуле, предложенной В. Т. Титовым (Титов 2002; 2004):
Маркемы – первые 50 словоформ с наибольшим положительным индексом тематической маркированности, удовлетворяющие ряду критериев, предложенных А. А. Кретовым (Кретов, Катов 2009; Кретов, Катов, Фаустов 2009): 1. Автоматизация подсчета количества звуков в слове Естественно, что взаимное соответствие букв и звуков для английского языка отлично от их соотношения в русском. Следовательно, программа «ТемАЛ», которая для вычисления ИнТеМа определяет, в частности, длину словоформ в звуках в русскоязычных текстах, для анализа необработанного корпуса текстов на английском языке использована быть не может. Применение данной программы становится возможным только в случае, если количество букв приведено в соответствие числу звуков в словах. Таким образом, предназначенные для анализа текстовые файлы необходимо предварительно отредактировать средствами Microsoft Word. Так, например, буквосочетание sh заменяется на ш, wh – на в и т. п. (разумеется, это исключительно функциональные обозначения, не передающие реальные звуки). Две одинаковые буквы, обозначающие согласный, преобразуются в одну заглавную (для удобства обратного преобразования). Сочетания or, ar и подобные могут быть заменены, например, на русские буквы о, а и т. д. (компьютерная программа воспринимает их как отличные от английских символов o, a и т. п., что позволяет избежать путаницы). Долгие гласные допускают переобозначение через соответствующие этим звукам заглавные буквы, (например, sheep → shIp, pool → pUl и т.п.). Возможно, потребуются и другие преобразования текста. Таким образом, для обработки значительного по объему материала данный метод представляется слишком громоздким. Анализ крупного корпуса произведений английских писателей станет практически осуществимым лишь при условии создания программы, аналогичной «ТемАЛ», для работы с англоязычными текстами.
Многие слова в английском языке (look, love, hate и т. д.) могут выступать в качестве разных частей речи (например, love-существительное и глагол to love). Существующие в настоящее время компьютерные программы, и, в частности, «ТемАЛ», оказываются неспособны в данном случае определить частеречную принадлежность лексем такого рода. Конечно, эта неопределённость легко разрешается при обращении к контексту, но в случае анализа обширного текстового материала исследование всех контекстов оказывается слишком трудоёмким. Возможный способ разрешения этой проблемы аналогичен описанному в статье «Использование статистических данных употребительности падежей для уточнения результатов маркемного анализа» (Кашкина 2010). В данной работе рассматривается идея об устранении погрешности подсчета ИнТеМа, связанной с невозможностью автоматического определения падежа омонимичных форм русских существительных, при помощи статистического метода. Этот подход может быть применён и к некоторым случаям грамматической омонимии в английском. Так, наиболее типичный случай – совпадение существительного и глагола. Для реализации описанного в (Кашкина 2010) метода необходимо выбрать одну или несколько наиболее характерных лексем данного типа (например, love) и на основании анализа произведений небольшого числа писателей (3-4) некоторого хронологического среза выявить процент случаев употребления этой лексемы в качестве существительного от общего количества употреблений. Затем вычисляется среднее арифметическое данных, полученных по исследованным авторам, которое и принимается за общий коэффициент для рассматриваемого периода. Чтобы определить действительную относительную частоту (а, следовательно, и ИнТеМа) употребления в роли существительного любой лексемы такого типа, встречающейся в исследуемом периоде, необходимо умножить относительную частоту этой лексемы, выданную программой ТемАЛ, на полученный коэффициент. Данный метод уже был апробирован в (Кашкина 2010) для снижения погрешности в вычислении ИнТеМа омонимичных грамматических форм в русских поэтических текстах. Однако существуют и более сложные ситуации – наложение грамматической и лексической омонимии, например, lie: «lie 1 v.i. & n. (make a) statement that one knows to be untrue... lie 2 v.i. 1. be, put oneself, flat on a horizontal surface or in a resting position; be at rest .... n. the way sth lies, (fig.) the state of affairs» (Hornby 1962). Правомерно ли применение статистического подхода к случаям такого рода, покажут дальнейшие исследования. Но в целом на данном этапе омонимия представляет собой серьезное препятствие для маркемного анализа.
Один из фильтров выделения маркем для русскоязычных текстов – грамматический (лексемы должны быть в единственном числе и именительном падеже). К сожалению, для английского языка особенности грамматики – отсутствие формальных признаков падежа – делают применение этого критерия невозможным. В этой ситуации, на наш взгляд, следует опираться на роль слова в предложении. Таким образом, мы можем видоизменить грамматический фильтр для англоязычных текстов: маркемами являются существительные в единственном числе, выступающие в предложении в качестве подлежащего. Но подобный подход делает выделение маркем невозможным без анализа контекста, что затрудняет исследование обширного текстового материала.
Сопоставительный маркемный анализ русских и английских текстов предполагает сравнение ИнТеМа лексем. Для получения адекватных результатов необходимо, чтобы сопоставляемые лексемы имели одинаковую семантику. Однако на практике значение слова либо в русском, либо в английском часто оказывается более широким. Так, например, лексеме земля соответствуют earth, land, soil, лексеме dream – сон и мечта (АРС 1971, ОРАС 2004). Теоретически возможно вести автономный подсчёт ИнТеМа для каждого из значений или даже оттенков значения слова. Но такой метод требует непрерывного обращения к контексту. В этом случае исследование значительных по объему корпусов русско- и англоязычных текстов практически неосуществимо из-за чрезмерной трудоёмкости.
|
|
|
|
|