Top.Mail.Ru
Общество
Северная Америка
0

Разработчики научили нейросеть создавать сложные картинки по текстовому описанию

Оригинальное изображение (слева) и работы нового алгоритма (справа), а также его предшественников
Оригинальное изображение (слева) и работы нового алгоритма (справа), а также его предшественников

МОСКВА, 19 июня, ФедералПресс. Разработчики Microsoft обучили нейросеть создавать сложные сцены из заданных текстом объектов.

Разработчики из Microsoft представили новую генеративно-состязательную нейросеть. Она способна создавать сложные изображения по имеющемуся текстовому описанию.

До этого компания выпускала нейросети с подобным функционалом, однако качество изображения было заметно хуже. Предыдущие версии хорошо справлялись с простыми задачами, но при создании сложных изображений возникали трудности.

Новый алгоритм на основе объектно-ориентированной генеративно-состязательной нейросети (сокращенно ObjGAN) работает на основе нейросети с долгой краткосрочной памятью. В ней слои изображения анализируют нужный текст и выделяют из него объекты, которые необходимо расположить на итоговой картинке, после чего генерируется форма итогового изображения. В итоге та часть алгоритма, которая основана на генеративно-состязательной нейросети, дорисовывает изображение на основе заданной формы.

Оригинальное изображение (слева) и работы нового алгоритма (справа), а также его предшественников

Для обучения алгоритма был использован датасет COCO из 328 тыс. изображений с текстовыми подписями. Судя по примерам работы алгоритма, которые представили в Microsoft, алгоритм справляется со своей задачей намного лучше предшественников.

Ранее мы сообщали, что нейросеть научилась определять Photoshop на портретах. Так в Adobe собираются бороться с фейковыми фото.

Фото: pxhere.com

Подписывайтесь на наш канал в Дзене, чтобы быть в курсе новостей дня.