Loading

Портал суфизм.ру | Что такое суфизм? | Суфийский орден Ниматуллахи | Правила поведения на форуме | В помощь начинающим
Четвертый путь | Карта сайтов | Журнал "Суфий" | Контакты | Архив электронного журнала | Архив форума

Автор Тема: Шведские физики разработали статистический метод определения авторства текстов  (Прочитано 824 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Дальвадар Сали

  • Ариф
  • ******
  • Сообщений: 1181
  • Reputation Power: 8
  • Дальвадар Сали has no influence.
    • Просмотр профиля
    • sufism.ru
В работе найден ответ на вопрос, как с математической точностью описывать индивидуальность стиля писателя. Полученная формула дает разные значения для разных прозаиков и, соответственно, открывает большие возможности для определения авторства текстов, создателей которых мы пока не знаем.

Авторы исследования отталкиваются от так называемого закона Зипфа (Ципфа), сформулированного в 1935-49 годах и использующегося, например, в современных системах поиска в интернете. Лингвист Джордж Кингсли Зипф исследовал частотность слов: одних в тексте попадается больше, других меньше, и по этому принципу все слова разбиваются на группы. Ученый предложил дать этим группам порядковые номера (ранги): самые частотные слова получают номер 1, с частотностью пониже - 2, еще на уровень ниже - 3, и так далее. Далее вычисляется вероятность встретить слово Икс в тексте: количество слов Икс в тексте делится на число всех слов. Зипф обнаружил, что если вероятность для слова Икс помножить на порядковый номер ранга, в котором оно оказалось, то каждый раз будет получаться приблизительно одна и та же величина. Так, для английского языка эта константа равна примерно 0,1, а для русского - 0,06-0,07.

Шведские ученые эту универсалию решили скорректировать. Они считают, что частота использования тех или иных слов не всецело определяется безличным языком, а зависит от индивидуального стиля человека, который им пользуется, в нашем случае - писателя. Физики обратились к словам самого высокого ранга - тем, которые встречаются в тексте лишь единожды - и изучили их распределение по всему произведению. Оказалось, что чем дальше читаешь текст, тем реже попадаются такие "уникальные" слова. Шведы взяли произведения трех классиков англоязычной литературы - Томаса Харди, Д.Г. Лоуренса и Германа Мелвилла - и выяснили, что степень снижения встречаемости "уникальных" слов является общей для разных произведений одного автора, но при этом своей собственной для каждого из троих писателей. Ученые исследования предполагают, что этот показатель может быть "ключом" к индивидуальному авторскому стилю и поможет определить, какой текст справедливо приписывается тому или иному писателю, а какой стоит исключить из его собрания сочинений.

http://www.lenta.ru/articles/2009/12/12/formula

Tags:
 

Персидский суфизм | Антология суфийской поэзии | Энциклопедия духовной культуры | Галерея "Страна Востока"
Издательство "Риэлетивеб" | Джалал ад-Дин Руми | Музыка в суфизме | Идрис Шах | Суфийская игра | Клуб Айкидо на Капитанской

Rambler's Top100 Rambler's Top100