Нейромережа DALL-E
Починаючи з 2020 року, використання мовних алгоритмів зорових задач стало новим трендом у машинному навчанні, в якому дослідники бачать величезний потенціал. Яскравим прикладом є нейромережа DALL-E.
DALL-E – це програма штучного інтелекту, яка створює зображення з текстових описів. Її створили розробники з OpenAI. DALL-Е побудована на архітектурі нейромережі GPT-3 і може генерувати картинки, оброблюючи текстові запити.
DALL-E розуміє складні абстрактні комбінації, може змінювати стиль зображень, а також здатна створювати реалістичні фото («вітраж із зображенням синьої полуниці») і неіснуючі об'єкти («куб з фактурою дикобразу»). Системі під силу не лише генерувати картинки, а й добудовувати будь-яку прямокутну область існуючого зображення.
Програма названа на честь відомого художника Сальвадора Далі і робота-прибиральника Wall-E з однойменного мультфільму. Те, що DALL-E є синтезом сюрреалізму й анімації, не повинно викликати подив. Далі й Уолт Дісней почали спільну роботу над коротким анімаційним фільмом ще в далекому 1946 році. Минуло більше 50 років, перш ніж він був випущений. Фільм «Доля» поєднав стилі двох легендарних творчих розумів.
DALL-E. Приклади
Давайте подивимося, як справляється нейромережа з задачами, які перед нею поставлені.
Результат роботи DALL-E при тексті «Професійна високоякісна ілюстрація жирафа-дракону-химери. Жираф, який імітує дракона. Жираф, зроблений з дракону».
Результат роботи DALL-E при тексті «Крісло у формі авокадо».
Результат роботи DALL-E при тексті «Вітальня з двома білими кріслами і картина Колізею. Картина встановлена над сучасним каміном».
Результат роботи DALL-E при тексті «Равлик з арфи».
Результат роботи DALL-E при тексті «Професіний високоякісний емодзі закоханого стакану бабл-ті».
Незважаючи на колосальні успіхи, DALL-E поки що не ідеальна і не готова обробляти занадто складні запити.
Переклад: IrinaKlassic