Американські лінгвісти знайшли спосіб встановити автора анонімної публікації в інтернеті

Chaos Communication Congress 29C3

   На хакерській конференції Chaos Communication Congress 29C3 група американських аспірантів-лінгвістів з Університету Дрекселя (Філадельфія) представила свою розробку - програму для встановлення авторства тексту.



    Подібна програма може допомогти у виявленні хакерів, зломщиків програм і творців шкідливих вірусів. Інструмент деанонімізації поки що існує у вигляді альфа-версії; його розробка ще не завершена.

    Методика, що використана творцями програми, заснована на стілометріі, прикладної області лінгвостилістики, що займається статистичним аналізом письмового тексту.

    Програма виявляє закономірності в текстах, а також використання службових слів, які створюють унікальну будову пропозиції в кожному конкретному випадку. Тексти на мовах, відмінних від англійської, перекладаються на англійську і теж відмінно аналізуються програмою, з визначенням автора.

    Технологія розпізнавання здатна працювати з текстами різних стилів. Наприклад, можна визначити автора наукової роботи по його повідомленнями в чаті, і навпаки. На вибірці зі 100 користувачів підпільних форумів і хакерських чатів система показала точність розпізнавання 80%.

    Автори вважають, що систему стилометричного аналізу можна успішно використовувати для виявлення власників ботнетів, продавців нелегального товару в інтернеті, авторів шкідливих програм та інше. Подібні можливості системи можуть зацікавити правоохоронні органи.

    Дослідники провели сканування мільйонів повідомлень на форумах хакерських сайтів за участю декількох десятків тисяч авторів дискусій. Програма зуміла визначити 300 тем обговорень на форумах, найпопулярніші з яких - кардинг, сервіси шифрування, злом паролів та інструменти для "чорної" пошукової оптимізації.

    Однак для виявлення автора тексту необхідно буде дотриматися ряду умов, які забезпечать високу точність аналізу.

    Так, в дослідженні повинно брати участь не більше 50 авторів текстів, на кожного з яких необхідно зібрати відповідний матеріал - тексти сукупною довжиною не менше 6500 слів. Також не представляється можливим визначити авторство тексту, довжина якого буде менше 500 слів.

    Ускладнити пошук можуть використання автором жаргону, "альтернативного алфавіту" або мови, відмінної від англійської, проте текст, перекладений автоматичним перекладачем, також може успішно виступати матеріалом для аналізу.

    Відзначимо, що в рамках того ж проекту ведеться і розробка "вбивці" програм, які визначають авторство, - системи, покликаної допомогти авторам позбутися унікальності своїх текстів.

Читати також


Вибір редакції
up