МОСКВА, 19 июня, ФедералПресс. Разработчики Microsoft обучили нейросеть создавать сложные сцены из заданных текстом объектов.
Разработчики из Microsoft представили новую генеративно-состязательную нейросеть. Она способна создавать сложные изображения по имеющемуся текстовому описанию.
До этого компания выпускала нейросети с подобным функционалом, однако качество изображения было заметно хуже. Предыдущие версии хорошо справлялись с простыми задачами, но при создании сложных изображений возникали трудности.
Новый алгоритм на основе объектно-ориентированной генеративно-состязательной нейросети (сокращенно ObjGAN) работает на основе нейросети с долгой краткосрочной памятью. В ней слои изображения анализируют нужный текст и выделяют из него объекты, которые необходимо расположить на итоговой картинке, после чего генерируется форма итогового изображения. В итоге та часть алгоритма, которая основана на генеративно-состязательной нейросети, дорисовывает изображение на основе заданной формы.
Для обучения алгоритма был использован датасет COCO из 328 тыс. изображений с текстовыми подписями. Судя по примерам работы алгоритма, которые представили в Microsoft, алгоритм справляется со своей задачей намного лучше предшественников.
Ранее мы сообщали, что нейросеть научилась определять Photoshop на портретах. Так в Adobe собираются бороться с фейковыми фото.
Фото: pxhere.com