Чому детектори тексту, створеного ChatGPT або іншим ШІ, не завжди видають правильний результат?

Оновлено: 04.03.2025

Технологія ШІ (штучного інтелекту) все більше входить у повсякденне життя, а тому існує потреба розрізняти вміст, створений людьми, і контент, створений за допомогою ChatGTP або інших інструментів ШІ. Детектори вмісту штучного інтелекту, як-от GPTZero або ZeroGPT, призначені саме для цього. Однак, як показує дослідження, яке опублікував освітній блог для студентів та науковців, ці інструменти далекі від досконалості, адже генерують помилкові позитивні результати.

Чому детектори ШІ видають помилкові позитивні результати?

Основною проблемою в роботі детекторів ШІ є різноманітність і складність людської мови. Такі віртуальні помічники з генеративним ШІ, як ChatGPT, навчаються на величезних наборах даних, які містять мільйони прикладів тексту як написаного людьми, так і створеного машинами. Щоб оцінити, чи текст є більш імовірно написаним людиною, чи згенерованим ШІ, детектори використовують два показники:

perplexity – показник того, наскільки текст відхиляється від того, що навчила модель,
burstiness – варіабельність довжини та структури речень.

Проте людська письмова мова може бути однаково передбачуваною або шаблонною, що може призвести до низьких балів „perplexity”, помилково припускаючи, що текст створено ШІ. Такі ситуації траплялися, наприклад, коли детектори позначали Конституцію України чи біблійні уривки як згенеровані ШІ, що чітко вказує на обмежену вірогідність цих інструментів.

Обмеження та проблеми детекторів ШІ

ШІ-детектори базуються на припущеннях, які не завжди відповідають дійсності. Люди можуть писати формальним способом і використовувати загальні фрази, що робить їхні тексти схожими на ті, що створені за допомогою ШІ. Крім того, як показує дослідження, штучний інтелект дедалі краще здатний імітувати людську варіабельність довжини та структури речень і креативність у письмі, що ускладнює їх розрізнення.

Окрім помилкових позитивних результатів, існує також проблема культурних та мовних відмінностей. Дослідження показали, що детектори штучного інтелекту можуть бути упередженими щодо текстів, написаних не носіями мови, створюючи високі показники помилкових позитивних результатів. Щодо української мови, то тут усе зрозуміло. Велика частина Конституції України, на думку ZeroGPT, була написана ШІ.

Майбутнє детекторів вмісту ШІ

Дуже важливим є той факт, що OpenAI видалила свій детектор вмісту ChatGPT, оскільки він був настільки неточним, що не міг правильно визначити зміст, написаний цією ж системою. З огляду на наявні проблеми, деякі викладачі ВНЗ вважають, що перевірка наукових робіт на вміст ШІ повинна бути лише допоміжним критерієм їх оцінки. Наразі не можна повністю покладатися на детектори ШІ через високий ризик помилок. Подальші дослідження та розуміння того, як розвиваються детектори вмісту ШІ, можуть стати ключовим фактором для ефективного використання цих інструментів у майбутньому.