Штучний інтелект навчився вести переговори у настільній грі
22 листопада компанія Meta, що володіє Facebook та Instagram, представила алгоритм штучного інтелекту (ШІ) Cicero, який обігрує живих людей у настільну гру «Дипломатія». На відміну від більшості подібних алгоритмів, розробка Meta не просто знає правила гри і вміє їх дотримуватися, а ще й може вести переговори як реальна людина — і навіть краще. Портал Експеримнет розповідає, як влаштований Cicero і для чого його можуть застосувати в майбутньому.
Алгоритм ІІ від Meta анонімно зіграв 40 партій у «Дипломатію» в онлайн-версії гри, на сайті webDiplomacy.net, і ніхто не здогадався, що це не справжня людина. Більше того, Cicero набирав у середньому вдвічі більше очок, ніж живі гравці, а за підсумками періоду з 19 серпня по 13 жовтня увійшов до 10% найкращих гравців.
«Він безжальний у реалізації своєї стратегії, але не настільки, щоб дратувати чи засмучувати інших» — так про Cicero висловився чемпіон світу з «Дипломатії» Ендрю Гофф.
Спочатку розберемося, як грають у «Дипломатію»
«Дипломатія» — це настільна гра, яку 1954 року вигадав американець Алан Браян Колхамер. Ігрове поле — карта Європи початку XX століття, а учасники гри (максимум сім) беруть роль керівників великих держав: Австро-Угорщини, Великобританії, Німеччини, Італії, росії, Туреччини та Франції. Якщо гравців менше семи, кожен управляє відразу кількома країнами. Перемагає той, під контролем якого виявляється половина так званих центрів підтримки — особливих зон на полі, що дозволяють виробляти і утримувати військові одиниці для подальшої експансії. Одна зона – одна військова одиниця.
Загалом на ігровому полі таких зон 32, нейтральних на старті партії — лише 12. Зазвичай їх захоплюють на початку, далі держави змушені воювати один з одним за територію.
Ходи в «Дипломатії» — на відміну від багатьох інших настільних ігор — відбуваються не по черзі, а водночас. Ігровий хід розділений на весну та осінь, а кожен із сезонів, у свою чергу, поділений на кілька фаз:
- фаза дипломатії - гравці спілкуються, укладають альянси (як відкрито, так і таємно), продумують подальшу стратегію або підслуховують плани опонентів;
- фаза написання наказів - гравці пишуть на папірцях накази про пересування, підтримку, транспортування своїх військ або про утримання позицій;
- фаза виконання наказів - гравці зачитують свої накази і виконують, якщо можливо;
- фаза відступу та розформування - гравці відводять розбиті в бою формування на безпечні території;
- фаза отримання та втрати військ — гравці оцінюють, скільки «центрів підтримки» вони контролюють, і або позбавляються військових одиниць, або, навпаки, набувають. Ця фаза можлива лише восени.
Так як влаштований штучний інтелект Cicero
На відміну, наприклад, від Ризика в Дипломатії мало що вирішує просте везіння. Та й переміщення фігурок по полю – це нехай важлива, але не головна складова гри. Сама назва підказує, що основою ігрового процесу є вербальна взаємодія між гравцями. «Глави держав» ведуть переговори, укладають спілки, зраджують, обманюють, блефують — і всіма цими навичками (зрозуміло, не в настільній, а в онлайн-версії гри, доступної на webDiplomacy.net) опанував алгоритм ШІ Cicero.
Якщо спрощувати, то Cicero - це щось на зразок чат-бота, в основі роботи якого лежать два модулі: обробки природної мови та стратегічного мислення. Крім цього є фільтри, що відсівають «низькоякісні» репліки діалогу, що не підходять поточної ситуації на полі або не ведуть до досягнення мети, поставленої ШІ. Завдяки цим трьом складовим Cicero здатний спілкуватися з опонентами з «Дипломатії», передбачати їх вчинки, використовувати гравців для досягнення особистої вигоди та вигравати.
Мовна модель Cicero включає 2,7 мільярда параметрів, навчена на книгах, новинах, постах c Reddit, а також гігантському масиву даних Common Crawl. На додаток інженери Meta використовували дані про 125 тисяч онлайн-партій в «Дипломатію», зіграних на webDiplomacy.net. У 40,4 тисячі із цих 125 тисяч гравці спілкувалися один з одним. Таким чином, Cicero навчався ще й по 12,9 мільйона повідомлень, які безпосередньо стосуються «Дипломатії».
Однак, як зазначають у Meta, така модель може лише наслідувати повідомлення з корпусу даних, але не створювати на їх основі ефективніші репліки. Іншими словами, модель вміє брехати, блефувати і «втикати ніж у спину», можливо, так само добре, як людина, але не краще за неї.
Щоб виправити цю ваду, інженери запровадили поняття «наміру» (intents). Вони допомагають контролювати діалог між ШІ та живим гравцем. Кожному повідомленню в датасеті, на якому навчався Cicero, автоматично присвоєно анотацію, що відображає власне наміри відправника та одержувача на поточний хід та кілька наступних. Умовно: намір A надається повідомленню, якщо A — це найімовірніші дії, які зроблять учасники діалогу. Якщо діалог продовжується після повідомлення A, наміри можуть змінитися.
За прорахунок подальших планів і вибір намірів відповідає модуль стратегічного мислення Cicero — саме він аналізує обстановку на полі і переговори, що відбулися, а також передбачає дії інших гравців. Зазвичай для таких цілей використовують "поведінкове клонування" - навчання ШІ на основі даних, отриманих зі спостережень за людьми.
У випадку з «Дипломатією» такий підхід не надто працює, тому що в результаті виходять розбіжності між словами ШІ та його діями. У Meta AI розробили ітеративний алгоритм і назвали його piKL: він сприймає кожен хід у «Дипломатії» як окрему гру, в рамках якої учасник прагне зробити якусь дію, щоб досягти конкретної мети. І ціль, і нагороду алгоритм передбачає, виходячи з припущення, що гравець вибиратиме найкращі з доступних йому варіантів.
Cicero пропонує супернику вигідне для себе рішення та припускає, що той відповість. Грунтуючись на найімовірніших відповідях противника, ШІ прогнозує поведінку опонента, і навіть коригує свій план.
Тут виникає одна проблема: Cicero за своєю «природою» не вміє брехати, тому нерідко видає супротивникові реальні плани. Щоб нівелювати «відплив інформації», в Meta розробили метод оцінки повідомлень залежно від того, наскільки це зашкодить самому ШІ. У результаті, оцінивши 127 діалогів, інженери дійшли висновку, що штучний інтелект вибирає найкращі варіанти реплік у 67% випадків.
Це якраз один із таких фільтрів реплік, про які ми писали вище. Серед інших – фільтри, що відсіюють токсичні висловлювання, а також повтори повідомлень та офтоп.
І навіщо штучному інтелекту грати у настільну гру
Протягом десятиліть вважалося, зазначають у Meta, що штучний інтелект не зможе опанувати «Дипломатію». Але він зміг - і, більше того, чудово себе виявив. Гра, яка вимагає вміння переконувати, укладати договори та йти на компроміси, стала чудовим полігоном для дослідження взаємодії між ШІ та людиною.
Якщо хтось має бажання ближче познайомитися з Cicero або покращити його, то можна відправити заявку до Meta — вона готова надати доступ. Компанія закликає відповідально підходити до модифікацій ШІ, щоб уникнути повторення ситуації з демоверсією нейромережі Galactica, яка проіснувала у відкритому доступі лише два дні.
І хоча зараз Cicero годиться тільки для гри в «Дипломатію», методи, використані для його створення, можна застосувати і в інших областях. Здатність вести осмислений діалог з користувачем дуже стане в нагоді, наприклад, голосовим помічникам, які зараз можуть лише відповідати на чітко задані питання. Крім того, це потрібно в освітньому процесі, де схожий ШІ буде здатний взяти на себе роль викладача. Нарешті, технологія Meta в теорії допоможе розробникам відеоігор створювати по-справжньому живих NPC, розмови з якими не зводитимуться до простого прокликування доступних реплік.
У які ігри ще грав штучний інтелект
Cicero - не перший штучний інтелект, який перевершує людей в іграх. Наприклад, у 2015-му Google розробила програму AlphaGo, навчену на 160 тисяч партій у го. У тому ж році програма здобула перемогу над триразовим чемпіоном Європи з го Фань Гуеєм, а роком пізніше — над Лі Седолем, володарем вищого, дев'ятого дана. Цікаво, що жодних спеціальних алгоритмів, пов'язаних безпосередньо з го, в AlphaGo не закладено.
У 2019 році розроблений Alphabet штучний інтелект AlphaStar вперше переміг професійних гравців у StarCraft 2. Підсумковий рахунок – 10:0.
Але найвідоміший випадок переваги машини над людиною на ігровому полі — це шаховий матч, який пройшов у травні 1997 року. На ньому суперкомп'ютер Deep Blue, створений IBM, обіграв Гарі Каспарова, здобувши перемогу у двох партіях із шести. Каспаров переміг в одній, а решта трьох партій завершилася нічиєю. Це був перший випадок в історії, коли комп'ютер обіграв чемпіона з шахів.
Однак і го, і StarCraft 2, і шахи - ігри з нульовою сумою, тобто такі, в яких гравці спочатку антагоністичні, а цілі протилежні. Кооперативна взаємодія в таких іграх не передбачається, тому творці ШІ можуть навчити модель, просто змусивши комп'ютер грати проти себе. З «Дипломатією», де формуються соціальні зв'язки, а перебіг партії не такий передбачуваний, такий метод не спрацює.