Нейромережа DALL-E. Яскраві приклади
Починаючи з 2020 року, використання мовних алгоритмів зорових задач стало новим трендом у машинному навчанні, в якому дослідники бачать величезний потенціал. Яскравим прикладом є нейромережа DALL-E.
DALL-E – це програма штучного інтелекту, яка створює зображення з текстових описів. Її створили розробники з OpenAI. DALL-Е побудована на архітектурі нейромережі GPT-3 і може генерувати картинки, оброблюючи текстові запити.
DALL-E розуміє складні абстрактні комбінації, може змінювати стиль зображень, а також здатна створювати реалістичні фото («вітраж із зображенням синьої полуниці») і неіснуючі об'єкти («куб з фактурою дикобразу»). Системі під силу не лише генерувати картинки, а й добудовувати будь-яку прямокутну область існуючого зображення.
Програма названа на честь відомого художника Сальвадора Далі і робота-прибиральника Wall-E з однойменного мультфільму. Те, що DALL-E є синтезом сюрреалізму й анімації, не повинно викликати подив. Далі й Уолт Дісней почали спільну роботу над коротким анімаційним фільмом ще в далекому 1946 році. Минуло більше 50 років, перш ніж він був випущений. Фільм «Доля» поєднав стилі двох легендарних творчих розумів.
DALL-E. Приклади
Давайте подивимося, як справляється нейромережа з задачами, які перед нею поставлені.
Результат роботи DALL-E при тексті «Професійна високоякісна ілюстрація жирафа-дракону-химери. Жираф, який імітує дракона. Жираф, зроблений з дракону».
Результат роботи DALL-E при тексті «Крісло у формі авокадо».
Результат роботи DALL-E при тексті «Вітальня з двома білими кріслами і картина Колізею. Картина встановлена над сучасним каміном».
Результат роботи DALL-E при тексті «Равлик з арфи».
Результат роботи DALL-E при тексті «Професіний високоякісний емодзі закоханого стакану бабл-ті».
Незважаючи на колосальні успіхи, DALL-E поки що не ідеальна і не готова обробляти занадто складні запити.
Російська версія
Нещодавно компанія SberAI представила російську версію генератора зображень. Звісно ж, за основу для ruDALL-E взяли нейромережу DALL-E, яка виконує аналогічні задачі англійською. Потім спеціалісти компанії провели навчання нейромережі на своїй базі зображень і текстів і дали їй нову назву, яка підкреслює русифікацію.
Розробники повідомляють, що навчання нейромережі ruDALL-E стало найбільшою обчислювальною задачею в Росії. Ми вирішили протестувати російську версію нейромережі. Результат нас здивував і… повеселив. Дивіться самі:
Результат роботи ruDALL-E за запитом «Сальвадор Далі читає портал Експеримент».
Результат роботи ruDALL-E за запитом «Сонний програміст».
Результат роботи ruDALL-E за запитом «Ананас лежить на дерев'яному столі».
Результат роботи ruDALL-E за запитом «Девід Лінч медитує».
Результат роботи ruDALL-E за запитом «Зелений слоник».
Результат роботи ruDALL-E за запитом «Остання надія людства».
Результат роботи ruDALL-E за запитом «Мені наснилося небо Лондона».
Результат роботи ruDALL-E за запитом «Смачна вечеря».
Результат роботи ruDALL-E за запитом «Кухар, крадій, його дружина і її коханець».
Результат роботи ruDALL-E за запитом «У бібліотеці».
Результат роботи ruDALL-E за запитом «Понтифік Іванов нюхає троянду».
Результат роботи ruDALL-E за запитом «Герман у гостях в Айрін».
Результат роботи ruDALL-E за запитом «Гола правда».
Результат роботи ruDALL-E за запитом «Добрий ранок».
Результат роботи ruDALL-E за запитом «Неймовірна краса».
Результат роботи ruDALL-E за запитом «Що подарувати дружині».
Результат роботи ruDALL-E за запитом «Кращий кандидат в президенти».
Результат роботи ruDALL-E за запитом «У чому сенс життя?».
Результат роботи ruDALL-E за запитом «Червоний гусак біжить лісовою стежкою».
Результат роботи ruDALL-E за запитом «Веселий клоун заліз на верхівку дерева».
Результат роботи ruDALL-E за запитом «Харукі Муракамі на ранковій пробіжці».
Здається, що російській версії поки що дуже далеко до оригіналу. А може, це просто твори сучасного мистецтва? Хлопці старалися… але ні. З нетерпінням чекаємо появи української версії.
Переклад: IrinaKlassic