OSINT

Кто написал этот текст? Стилометрия как способ вычислить анонимного автора

Анонимный телеграм-канал день за днём бьёт по вашей компании. Или на почту приходит анонимка с деталями, которые знал только узкий круг. Или в сеть утекает внутренняя переписка, и первый вопрос на совещании - кто это сделал.

В такие моменты кажется, что анонимность непробиваема: ни имени, ни цифрового следа. Но у текста есть свойство, о котором его автор обычно не задумывается. Текст несёт отпечаток «голоса» того, кто его написал. И этот отпечаток можно прочитать, оставаясь полностью в рамках закона и открытых данных, без всяких «серых баз».

Дисциплина, которая этим занимается, называется стилометрией. Ниже - о том, как она работает, что реально может и, что важнее, чего не может.

Что такое стилометрия простыми словами

У каждого пишущего человека есть устойчивый «почерк». Не почерк руки, а именно почерк письменной речи: то, как он строит фразы, какие слова-связки использует чаще других, где ставит запятую, какими значками размечает список. Сравнение здесь уместно с анализом походки. Её трудно сознательно изменить надолго, и по ней узнают человека издалека. С письмом происходит то же самое.

Довольно широко известен случай, когда в 2013-м стилометрический анализ вскрыл, что детектив «Зов кукушки», изданный неким Робертом Гэлбрейтом, на самом деле написала Джоан Роулинг. Идея не нова, совсем не экзотична, и она прекрасно работает на текстах из интернета.

Что именно нас выдаёт

Главное, что стоит понять: содержание текста подделать легко, а неосознаваемые привычки почти невозможно. Темы, фактологию и месседжи автор контролирует сознательно. А вот фоновые механизмы письма часто выдают его помимо его воли.

Что именно служит маркером:

  • Служебные слова. Предлоги, союзы, частицы, местоимения. Мы используем их автоматически, и их частоты у каждого свои. Это главный рабочий инструмент стилометрии.
  • Пунктуация и типографика. Любовь к длинному тире или к точке с запятой, выбор кавычек (знаменитое противостояние ёлочек против лапок), привычка к многоточиям. Очень устойчивый и очень личный слой.
  • Длина и ритм предложений. Кто-то рубит коротко, кто-то наслаивает придаточные. Средняя длина фразы и её разброс - стабильная величина.
  • Любимые обороты. Каждый автор невольно злоупотребляет парой выражений, которые становятся его приметой.
  • Эмодзи и значки списка. В мессенджерах это полноценный отпечаток: какой именно значок человек ставит перед пунктами, какие эмодзи у него в ходу.

Один маленький пример нагляднее теории. Два человека пишут об одном событии. Первый: «Власти приняли решение. Реакция последовала немедленно.» Второй: «Власти, как это у них водится, приняли „решение" - и реакция, конечно же, не заставила себя ждать…» Содержание совпадает. Всё остальное различается, это различие и есть почерк.

Не только слова: поведенческие метаданные

Стиль - не единственный слой. Рядом лежат данные о поведении, которые сужают круг не хуже.

Время публикаций выдаёт часовой пояс и распорядок дня. Если посты выходят кучно с полудня до семи вечера по Москве и почти не появляются ночью и по выходным, перед нами человек с рабочим графиком в определённом поясе, а не круглосуточный энтузиаст. Темы и глубина проработки выдают профессиональный бэкграунд: узкая экспертиза в конкретной области резко сокращает список. Языковые слои выдают уровень образования, иногда регион происхождения.

Отсюда практический вывод. Стилометрия сильнее всего работает в связке, как один из слоёв общего OSINT-разбора. Она даёт профиль подозреваемых, а соседние данные формируют их список. В итоге можно получить высоковероятностный результат, который снимет маску анонима с автора очередной анонимки.

Зачем это руководителю

Техника превращается в деньги и снятые риски:

  • Анонимная диффамация. Канал или анонимный аккаунт в соцсети системно атакует бренд или первое лицо. Атрибуция авторства - первый шаг к тому, чтобы остановить кампанию правовыми средствами.
  • Источник утечки. Внутренний документ ушёл наружу. Стиль сопроводительного текста сужает круг до нескольких человек.
  • Накрутка и астротурфинг. Сотня «независимых» отзывов или комментариев. Стилометрия показывает, один ли автор стоит за этой массой аккаунтов.
  • Анонимные угрозы и шантаж. Профиль автора помогает и службе безопасности, и следствию.
  • Проверка контрагента и верификация документа. Действительно ли письмо написал тот, чьей подписью оно закрыто.
  • Подмена автора. В колонках и официальных текстах за подписью первого лица иногда виден чужой почерк, и это важный сигнал.

Если вы узнали здесь свою ситуацию, значит, задача решаемая.

Чего стилометрия не делает

Метод даёт вероятность и короткий список, а не готовое имя на блюде. Чтобы сравнивать, нужен материал для сравнения: без корпуса текстов кандидатов получится только портрет автора, без фамилии. Нужен объём: по двум строкам почерк не снять. Есть риск ложного совпадения, поэтому ни один вывод не делается на одном признаке. И стиль можно сознательно маскировать, хотя удержать маскировку долго и последовательно трудно.

Отдельно стоит сказать о ролях. Установить, кто пишет тексты, - ещё не установить, кто за этим стоит. Автор, администратор и заказчик-бенефициар часто оказываются разными людьми. Стилометрия отвечает на вопрос про автора, остальные вопросы требуют других методов. Грамотный специалист эти роли не смешивает.

Этика и закон

Важный для руководителя пункт. Корректная атрибуция работает с открытыми текстами, которые автор сам опубликовал. Никаких взломов и купленных «пробивов», никакого вторжения в частную переписку. Перед любым публичным или юридически значимым выводом нужны независимые подтверждения. Сделанная по правилам, такая работа не создаёт правовых рисков ни для заказчика, ни для исполнителя, и это её принципиальное отличие от методов, которые потом обходятся дороже, чем сама проблема.

Почему мало «прогнать через программу»

Резонный вопрос: есть же готовые библиотеки и сервисы, запусти и считай. Библиотеки правда есть. Но цифры на выходе - ещё не вывод.

Решает методология. Корпус нужно собрать и очистить: отделить авторский текст от цитат и репостов, иначе вы измеряете чужой почерк. Признаки нужно выбрать под конкретную задачу. Ложный позитив нужно уметь распознать. Результат нужно связать с остальными данными и оформить так, чтобы он выдержал проверку в суде, перед советом директоров, в публикации, после которой возможен иск. Программа выдаёт числа. Защищаемый вывод делает человек, который понимает, как эти числа получены и где их можно оспорить.

Мини-кейс

Короткий разбор по мотивам реальной работы, без имён и деталей.

Дано: анонимный канал, который методично формировал негативную повестку в одной узкой сфере. Ни автора, ни контактов с привязкой к личности.

Что делалось. Сначала собирался корпус: несколько сотен авторских постов, очищенных от репостов. Затем снимался отпечаток, и картина оказалась выразительной. Автор почти не пользуется точкой с запятой и восклицательным знаком, зато обильно ставит ёлочки в ироническом смысле и размечает все списки одним и тем же значком. Дальше проверялось, один это человек или редакция: текст резался на отрезки по времени, и стилевые показатели между ними почти не расходились. Это говорит о едином авторе. Анализ времени постинга показал плотный рабочий день в московском поясе без ночных всплесков. А лексика и круг тем сузили автора до узкой профессиональной группы, в которой людей наперечёт.

Имени этот разбор сам по себе не дал. Зато он превратил безликого анонима в конкретный портрет с коротким списком кандидатов, по которому уже можно было двигаться дальше. Короткий сет из наборов текстов трёх подозреваемых, отобранных по итогам описательного портрета, довольно быстро определил «победителя» с хорошим скорингом более 96%.

Как я это использую

Чтобы не делать каждый раз всё руками, часть этой работы я встроил в OSINT-модуль своей «Системы ПРО». Туда можно подать Telegram-канал, сайт или просто вставленный текст, добавить подозреваемых для сравнения, настроить параметры разбора и получить отпечаток автора, проверку «один автор или редакция» и граф цитирования. Со всеми теми же оговорками, о которых я писал выше: инструмент ускоряет рутину, а защищаемый вывод по-прежнему даёт человек. Кто хочет посмотреть, как это устроено, вот модуль «Расследования».

С чего начать

Если у вас есть анонимный текст, чьё авторство важно установить, начать стоит именно с него. Пришлите материал или ссылку, и я скажу, что из этого реально вытащить, где проходят границы и каким будет план действий.

← Все материалы