Зенков А.В. Новый статистический метод стилеметрии // Международный журнал социальных и гуманитарных наук. – 2017. –Т. 1. №3. – С. 62-71.

НОВЫЙ СТАТИСТИЧЕСКИЙ МЕТОД СТИЛЕМЕТРИИ

 

А.В. Зенков, канд. физ.-мат. наук, доцент

Уральский федеральный университет

(Россия, г. Екатеринбург)

 

Аннотация. Предложен новый метод статистического анализа в текстологии. Исследовано распределение частот различных первых значащих цифр в числительных связных авторских русскоязычных текстов. Показано, что эти частоты приближённо соответствуют закону Бенфорда с резким преобладанием доли единицы. Отклонения от закона Бенфорда являются статистически устойчивыми авторскими особенностями, позволяющими при некоторых условиях исследовать вопрос об авторстве, в частности, различать тексты разных авторов. Распределение цифр конца ряда {1, 2,…, 9} подвержено сильным флуктуациям и непоказательно. Предложенный подход проиллюстрирован и выводы подкреплены примерами компьютерного анализа произведений М. Агеева, В. Набокова, М. Шолохова, Н. Некрасова и др. Результаты обоснованы на основе непараметрических U-критерия Манна-Уитни и критерия Крускала-Уоллиса.

Ключевые слова: закон Бенфорда, первая значащая цифра, стилеметрия, атрибуция текстов, обработка текстов, критерий Манна-Уитни, критерий Крускала-Уоллиса.

 

 

Введение

В последнее время существенно расширилась сфера практического использования известного уже больше ста лет закона Бенфорда [1]. Закон Бенфорда – своеобразное проявление закона больших чисел – описывает вероятность появления определённой первой значащей цифры в различных распределениях величин, взятых из реальной жизни. Вопреки кажущемуся очевидным предположению о том, что частоты появления любой первой значащей цифры числительных должны быть равными, для многих массивов данных в качестве первой значащей цифры заметно чаще других встречается единица! Согласно закону Бенфорда при записи числа в десятичной системе счисления вероятность появления цифры d в качестве его первой значащей цифры

 

                    (1)

 

так что d = 1 должна встречаться с вероятностью , d = 2 – с вероятностью 0,18 и т.д.

Исчерпывающего объяснения закона Бенфорда, охватывающего все случаи реализации, до сих пор не предложено, хотя и сформулированы некоторые условия, благоприятствующие его появлению. Один из классических опытов Бенфорда, хорошо согласующийся с (1) – подсчет встречаемости числительных на произвольных страницах прессы – находит логичное объяснение в теореме Хилла [2, 3], согласно которой в условиях неоднократного случайного выбора распределения вероятностей с последующим случайным выбором числа согласно этому распределению возникает набор чисел, подчиняющийся закону Бенфорда. Заметим, что Бенфорд анализировал встречаемость числительных, выраженных цифрами.

Неполнота понимания не препятствует успешному применению закона Бенфорда для выявления подлогов в бухгалтерской отчётности [4] и фальсификаций на выборах [5]; обсуждаются применения в различных науках; как иллюстрацию укажем работы, связанные с физикой и астрономией [6 8], сейсмологией [9], стеганографией [10], наукометрией [11].

Нами показана перспективность подсчета частот различных первых значащих цифр числительных в лингвистике – для задач текстологии [12]. Оказалось, что не только для случайной комбинации текстов, но и для связных текстов, для которых нарушается условие названной теоремы, распределение частот приближается к (1), но доля единицы заметно превышает 30% – хотя бы потому, что, формально являясь числительным, слово «один» фактически может выступать в роли неопределенного артикля.

В отличие от традиционной методологии применения закона Бенфорда, трактующей отклонения от закона как указание на возможное наличие «фальсификаций» в широком понимании, нами сделан акцент на сравнении этих отклонений для текстов разных авторов; показано, что эти отклонения являются статистически устойчивыми авторскими особенностями, позволяющими различать тексты разных авторов (при некоторых условиях, важнейшее из которых – достаточно большая длина текста).

В настоящей работе данный подход развит, и представлены новые результаты исследований.

Работа носит экспериментальный характер. Цель теоретического обоснования результатов (если таковое, вообще, возможно) не ставилась, что, однако, не умаляет применимости предложенной методологии для практических задач текстологии.

Для всех (русскоязычных художественных) текстов, подвергнутых статистическому анализу, с помощью ЭВМ подсчитывались частоты появления различных первых значащих цифр в количественных и порядковых числительных. Спецификой употребления числительных в художественном тексте является заметное преобладание словесного выражения числительных над цифровым. В первом случае вначале числительные (в разных словоформах) переводились в цифровую форму записи, так что, например, для числительного «семьсот пятьдесят три» (753) учитывалась только первая значащая цифра 7. Для выявления авторского употребления числительных предварительно из текста удалялись идиоматические выражения и устойчивые словосочетания, случайно содержащие числительныес пятого на десятое», «в двух словах»), а также маркеры списков 1), 2), 3) и т.п.

Распределение первых значащих цифр в числительных сборных текстов

Условия теоремы Хилла лучше всего выполняются для сборных текстов, состоящих из отрывков разного авторства. В этом случае авторские особенности текстов (см. ниже) усредняются, и получается частотная зависимость, напоминающая бенфордовскую (1), но отличающаяся более крутым падением; частота первой значащей цифры 1 заметно превышает ожидаемую по закону Бенфорда. Начиная с цифры 3 наблюдаемая частота, как правило, начинает уступать теоретической (1).

На рис. 1 представлены результаты статистического анализа сводных текстов трех сборников:

1) «Русская романтическая новелла» [13];

2) «Очарованные книгой» [14];

3) «Под чистыми звездами» [15].

 

 

Рис. 1. Распределение первых значащих цифр числительных в трех сборниках художественных текстов. Результаты сопоставляются с ожидаемыми согласно закону Бенфорда (1)

 

 

Связные художественные тексты: авторские особенности

Для текстов, принадлежащих перу одного автора, как правило, наблюдаются устойчивые особенности в статистике первых значащих цифр. В качестве примера приведем результаты анализа самых крупных (по объему) произведений Л. Н. Толстого, Ф. М. Достоевского (произведения №1–9) и И. А. Гончарова (рис. 24).

Обратим внимание на различие в частотах встречаемости единицы на рис. 2–4. В основном, цифра 1, а также (в меньшей степени) цифры 2 и 3 определяют авторскую специфику текста в нашем подходе. Встречаемость последующих цифр подвержена сильным флуктуациям, что не позволяет извлечь из их распределения полезную информацию. Заметим также, что максимальная частота для текстов Гончарова существенно меньше, чем для текстов Толстого и Достоевского.

Визуальное сходство статистических характеристик для основных произведений каждого автора подтверждается результатами применения непараметрического критерия Крускала–Уоллиса, предназначенного для оценки различий между более чем двумя выборками по уровню какого-либо признака [16]. В силу неинформативности распределений старших значащих цифр здесь и ниже учитывались распределения только первых значащих цифр 1, 2, 3. Уровень значимости всюду α = 0,05.

Нулевая гипотеза H0 утверждает, что все проверяемые совокупности распределены одинаково. Для указанных на рис. 2 произведений Л. Толстого асимптотическая значимость  (вероятность реализации H0) p = 1,000. Такое p-значение означает статистическую незначимость различий.

Для текстов Достоевского (без №10 – «Неточки Незвановой») асимптотическая значимость p = 0,998; для текстов И. Гончарова p = 0,970. И здесь внутренние различия между текстами каждого из авторов статистически незначимы.

Для достижения статистической устойчивости интересующих нас частотных характеристик тексты должны быть достаточно длинными: роман, повесть, но, видимо, не рассказ. На рис. 3, помимо крупных текстов, приведены для сравнения частотные характеристики сравнительно небольшого произведения «Неточка Незванова»; заметно сильное визуальное отличие от корпуса основных произведений Достоевского, подтверждаемое и критерием Крускала–Уоллиса (p = 0,081; это значение лишь немного превышает обычно принимаемое критическое значение 5%, при котором нулевая гипотеза отвергается). Итак, при включении в корпус анализируемых произведений сравнительно краткого текста со статистически неустоявшимися характеристиками вся совокупность выборок (текстов) оказывается статистически неоднородной.

Точно указать универсальную длину текста, начиная с которой частотные характеристики приобретают статистическую устойчивость, не представляется возможным, т.к. для разных авторов она индивидуальна. Например, для романов И. С. Тургенева согласие оказалось хуже, чем на рис. 2–4. Для всего множества романов  по критерию Крускала–Уоллиса p = 0,642.

 

 

Рис. 2. Распределение первых значащих цифр числительных в текстах Л. Толстого

 

Рис. 3. Распределение первых значащих цифр числительных в текстах Ф. Достоевского. Кроме объемных произведений (№1–9) для сравнения проанализировано

и более короткое (№10)

 

 

Рис. 4. Распределение первых значащих цифр числительных в текстах И. Гончарова

 

 

Распознавание авторства текстов

Авторство «Романа с кокаином». На протяжении шестидесяти лет в литературоведении оставался нерешённым вопрос об авторстве «Романа с кокаином», опубликованного в 1934г. под псевдонимом «М. Агеев». В отсутствие достоверной информации об авторе и каких-либо других значимых публикаций под этим именем получила распространение гипотеза о литературной мистификации. В силу некоторой жанровой и стилистической близости «Романа с кокаином» ранним романам В.В. Набокова перу последнего стали приписывать и роман М. Агеева. Публикация в 1990-х гг. ранее неизвестных архивных материалов [17] опровергла эту гипотезу. Хотя данный частный филологический вопрос уже снят, покажем, к каким результатам приводит наша методология.

Ниже приведены результаты статистического исследования «Романа с кокаином» и основных русскоязычных произведений Набокова (Рис. 5). Отметим значительное различие во встречаемости значащей цифры 1 в романе Агеева, с одной стороны, и в романах Набокова, с другой стороны. С учетом длины проанализированных текстов это различие трудно объяснить случайными флуктуациями (в отличие от последующих значащих цифр, для которых даже в книгах одного автора не усматривается общая закономерность). Это характерные авторские различия стилей. Мы склонны связать их с психологическими особенностями (в частности, склонностью к округлению чисел), которые, независимо от воли и сознания автора, сказываются на его текстах. Обратим внимание на то, как Набоков, буквально, вырабатывает свой стиль: столбцы 2 и 3 («Машенька», «Король, дама, валет») имеют частотные характеристики единицы, существенно отличные от последующих столбцов; начиная с 3-го столбца, остаются только незначительные вариации частотных характеристик. Заметим также, что для «Машеньки» встречаемость единицы ниже, чем это предписывается законом Бенфорда (редкий случай в нашей практике анализа текстов).

 

Рис. 5. Распределение первых значащих цифр числительных в «Романе с кокаином»

Агеева и русскоязычных произведениях Набокова

 

 

Разумеется, сравнение распределений не может основываться только на выявлении субъективных визуальных сходства и различий между ними. Нами применен непараметрический U-критерий Манна-Уитни. Нулевая гипотеза , утверждающая отсутствие значимых различий в рассмотренных распределениях, оказалась отвергнутой и принятой именно в тех случаях, как описано выше. Различие между романами Набокова оказалось незначимым, а «Роман с кокаином» Агеева значимо отличается от каждого из них.

Итак, статистический метод, основанный на подсчете первых значащих цифр числительных, способен ответить на вопрос об авторстве текста.

Проблема «Тихого Дона». Другой известной проблемой атрибуции текстов является вопрос об авторстве романа «Тихий Дон» и, шире, всего литературного наследия М.А. Шолохова. Имеются веские аргументы в пользу версии о плагиате и некоторые доводы против нее. Роман содержит восемь частей, объединенных в четыре книги. Лингвистическое и статистическое изучение романа обнаружило крайнюю неоднородность текста; авторство первых частей (или, по крайней мере, их литературной первоосновы, использованной Шолоховым) многими специалистами приписывается писателю Ф.Д. Крюкову, хотя есть и другой кандидат – В.А. Краснушкин, а в тексте последующих частей усматривают стиль А.С. Серафимовича, Б.А. Пильняка, А.А. Фадеева (неисчерпывающий список). Высказывалось мнение и о том, что сомнительно авторство не только «Тихого Дона»; что «Поднятая целина» и «Они сражались за Родину» также написаны не Шолоховым [18].

Не вдаваясь подробно в филологический обзор состояния проблемы, приведем результаты статистического исследования в рамках нашей методологии.

Во-первых, нами проведен статистический анализ трех романов Шолохова (Рис. 6). Распределение первых значащих цифр числительных в «Тихом Доне», с одной стороны, и двух других романах Шолохова («Поднятая целина», кн. I и II, «Они сражались за Родину»), с другой стороны, очень различно, при том, что обычно это распределение характерно для автора.

 

 

Рис. 6. Распределение первых значащих цифр числительных в романах Шолохова

«Тихий Дон», «Поднятая целина», «Они сражались за Родину»

 

 

Данный результат сделал необходимым более детальный анализ восьми частей «Тихого Дона» по отдельности. Результаты анализа показывают, что «Поднятая целина» и «Они сражались за Родину» могли быть написаны одним автором, но, вероятно, «Тихий Дон», во-первых, имеет другое авторство, и, во-вторых, это авторство неединоличное.

Эти выводы согласуются с кратко описанными выше результатами, полученными другими (в основном, филологическими) методами.

Итак, бенфордовский анализ может быть полезен при исследовании вопроса об авторстве текстов.

Творчество Николая Островского. Особенности возникновения текстов Николая Островского также давали повод усомниться в его авторстве. Известно много людей, принимавших участие в подготовке его книг: от переписывания рукописей до глубокой литературной правки первоначальных текстов. Ссылаясь на свидетельство самого Островского о большой помощи в работе над текстом романа «Как закалялась сталь», оказанной ему писательницей Анной Караваевой, некоторые приписывают ей чуть ли не авторство этого текста.

На рис. 7 представлен сопоставительный статистический анализ текстов Островского и Караваевой. Под названием «Караваева, Т. 1» фигурируют тексты, вошедшие в 1-й том 5-томного собрания сочинений А. Караваевой [19]; «Родина» – это трилогия («Огни», «Разбег», «Родной дом»), занимающая т. 3 и 4 данного собрания сочинений [20, 21]. Заметим, что тексты Караваевой крайне однородны с точки зрения статистики употребления числительных, при этом они существенно отличаются от текстов Островского (в т.ч. и по U-критерию Манна-Уитни).

Гипотеза об основополагающей роли Караваевой в подготовке текстов Островского не подтверждается. Разумеется, этим не доказывается авторство самогó Островского.

 

Рис. 7. Распределение первых значащих цифр числительных в романах Николая

Островского «Как закалялась сталь», «Рожденные бурей» и в текстах Анны Караваевой

 

 

Проверка методологии: ранняя проза Н.А. Некрасова. Интересную возможность проверки нашей идеи о связи авторства текста с его статистическими характеристиками предоставляют романы «Три страны света» и «Мертвое озеро» написанные Н.А. Некрасовым, несравненно более известным как поэт, в начале его литературной карьеры совместно с А.Я. Панаевой и впервые опубликованные в 18481849 и 1851гг., соответственно.

Рукописи романов не сохранились, поэтому в вопросе о распределении труда между соавторами значимы их собственные свидетельства. В «Воспоминаниях» Панаевой сообщается, что в написании романа «Три страны света» принимали участие оба – и Некрасов, и она; что же касается «Мертвого озера», то участие Некрасова ограничилось разработкой сюжета и написанием незначительной части текста. Руководствуясь филологическими соображениями, литературоведы, вопреки свидетельству Панаевой, усматривают в обоих романах существенную часть текста, написанную Некрасовым (с указанием конкретных глав) [22, 23].

Нами выполнен подсчет частот различных первых значащих цифр числительных в частях каждого из романов, приписываемых литературоведами конкретным авторам (Некрасов, Панаева), и, для сравнения, аналогичный анализ для «Воспоминаний» Панаевой и ранних прозаических произведений, единоличным автором которых является Некрасов (Рис. 8).

Некоторые выводы:

1. Распределение первых значащих цифр числительных в частях «Мертвого озера», приписываемых Некрасову и Панаевой, в целом схоже и сопоставимо с результатами для части «Трех стран света», приписываемой Панаевой. Для «Воспоминаний» Панаевой получены похожие результаты.

2. Распределение первых значащих цифр числительных в части «Трех стран света», приписываемой Некрасову, существенно отличается от трех указанных выше распределений, но схоже с результатами для ранней художественной прозы Некрасова. Не исключено участие Панаевой в написании и этой части романа.

3. Отсюда следует, что разные части «Мертвого озера», вероятно, написаны одним автором, а именно – Панаевой, а разные части «Трех стран света», действительно, имеют разное авторство.

4. Итак, нет оснований не доверять Панаевой в ее свидетельстве о процессе написания двух ее совместных с Некрасовым романов.

 

Рис. 8. Распределение первых значащих цифр числительных в текстах

Некрасова и Панаевой

 

 

 

Мы полагаем, что разработанная нами методология может быть полезным дополнением к традиционным стилеметрическим практикам учета длины предложений, длины слов, частот употребления служебных слов и определенных знаменательных частей речи и т.д. [25].

Заключение

1. Закон Бенфорда приближенно выполняется для связных текстов.

2. Отклонения от закона Бенфорда являются статистически значимыми устойчивыми авторскими особенностями. Существенное различие этих отклонений позволяет при некоторых условиях (главное из которых – достаточная длина) различить тексты разных авторов. Разумеется, сходство этих отклонений для нескольких текстов еще не означает тождественности их авторства.

3. Фактическая частота появления обычно превышает вероятность согласно закону Бенфорда для значащих цифр 1, 2, 3; для последующих цифр ситуация обратна. Распределение цифр конца ряда подвержено сильным флуктуациям и непоказательно.

 

Библиографический список

1. Benford F. The law of anomalous numbers. Proceedings of American Philosophical Society. 1938. Vol. 78. No. 4. P. 551–572.

2. Hill T. P. A Statistical Derivation of the Significant-Digit Law. Statistical Science. 1995. Vol. 10. P. 354–363.

3. Berger A., Hill T. P. An Introduction to Benford’s Law. Princeton: Princeton Univ. Press, 2015.

4. Nigrini M. J. Benford’s Law: applications for forensic accounting, auditing, and fraud detection. Hoboken: John Wiley & Sons, 2012.

5. Roukemaa B. F. A first-digit anomaly in the 2009 Iranian presidential election. Journal of Applied Statistics. 2014. Vol. 41. No. 1. P. 164199.

6 Pain J.-C. Regularities and symmetries in atomic structure and spectra. High Energy Density Physics. 2013. Vol. 9. No. 3. P. 392–401.

7. Biau D., The first-digit frequencies in data of turbulent flows. Physica A. 2015. Vol. 440, P. 147–154.

8. Hill T. P., Fox R. F. Hubble’s Law Implies Benford’s Law for Distances to Galaxies. Journal of Astrophysics and Astronomy. 2016. Vol. 37. No. 4. 8 pages.

9. Sambridge M., Tkalčić H., Arroucau P. Benford’s Law of First Digits: from Mathematical Curiosity to Change Detector. Asia Pacific Mathematics Newsletter. 2011. Vol. 1. No. 4. P. 1–6.

10. Andriotis P., Oikonomou G., Tryfonas T. JPEG steganography detection with Benford’s Law. Digital Investigation. 2013. Vol. 9. No. 3–4. P. 246–257.

11. Alves A. D., Yanasse H. H., Soma N. Y. Benford’s Law and articles of scientific journals: comparison of JCR and Scopus data. Scientometrics. 2014. Vol. 98. P. 173–184.

12. Зенков А. В. Отклонения от закона Бенфорда и распознавание авторских особенностей в текстах // Компьютерные исследования и моделирование. 2015. Т. 7, вып. 1. С. 197–201.

13. Русская романтическая новелла / Сост., подгот. текста, вступ. статья и примеч. А. Немзера. – М.: Худож. лит., 1989. – 384 с. (Классики и современники. Рус. классич. лит-ра).

14. Очарованные Книгой. Русские писатели о книгах, чтении, библиофилах. М.: Книга, 1982.

15. Под чистыми звездами. Советский рассказ тридцатых годов / Сост. Д. Г. Терентьева. – М.: Московский рабочий, 1983.

16. Сидоренко Е.В. Методы математической обработки в психологии. СПб.: Речь, 2001.

17. Сорокина М. Ю., Суперфин Г. Г. «Был такой писатель Агеев…»: версия судьбы или о пользе наивного биографизма // Минувшее: Исторический альманах. Вып. 16. М., СПб.: Феникс-Атенеум, 1994. С. 265–289.

18. Новое о Михаиле Шолохове: Исследования и материалы / Ф.Ф. Кузнецов и др. (ред.). М.: ИМЛИ РАН, 2003.

19. Караваева А.А. Собр. соч. в пяти томах. М.: ГИХЛ, 1957. Т. 1 – 588 с.

20. Караваева А.А. Собр. соч. в пяти томах. М.: ГИХЛ, 1957. Т. 3 – 546 с.

21. Караваева А.А. Собр. соч. в пяти томах. М.: ГИХЛ, 1957. Т. 4 – 776 с.

22. Некрасов Н.А. Три страны света. Ярославль: Верxне-Волжское кн. издво, 1965.

23. Некрасов Н.А. Мертвое озеро. Полн. собр. соч. и писем в пятнадцати томах, Том 10 книга I, Л.: Наука, 1985.

24. Некрасов Н.А. Художественная проза. Незаконченные романы и повести 1841–1856 гг. Полн. собр. соч. и писем в пятнадцати томах, Том 8. Л.: Наука, 1984.

25. Ryabko B., Astola J., Malyutov M. Compression-Based Methods of Statistical Analysis and Prediction of Time Series. Springer International Publishing Switzerland, 2016.

 

 

A NEW STATISTICAL METHOD OF TELEMETRY

 

A.V. Zenkov, doctor of physical and mathematical sciences, associate professor

Ural federal university

(Russia, Ekaterinburg)

 

Abstract. A new method of statistical analysis of textual criticism. Investigated the distribution of different frequencies of first significant digits in numerals connected copyright texts in Russian language. It is shown that these frequencies approximately correspond to the Benford’s law with a sharp predominance of units. Deviations from Benford’s law are statistically stable copyright features available under certain conditions to explore the question of authorship, in particular, to distinguish texts of different authors. The distribution of the numbers across row {1, 2,…, 9} are subject to strong fluctuations and unrepresentative. The proposed approach is illustrated and conclusions are supported by examples of computer analysis of works of M. Ageev, Vladimir Nabokov, Mikhail Sholokhov, N. Nekrasov, etc. the Results are justified based on non-parametric U-test of Mann-Whitney and Kruskal-Wallis test.

Keywords: Benford’s law first significant digit, telemetry, attribution of texts, word processing, the Mann-Whitney test, the criterion of the Kruskal-Wallis test.