AI: создаём картинки из текстового описания

Принёс интересное развлечение. Вкратце: можно словами описать то, что вы хотите видеть в результате, и на основе этого теста сгенерировать готовое изображение.

Предлагаю выкладывать в этой теме своё описание и получившийся шедевр!

Цель

Задача — создать «мультимодальную» нейронную сеть, которая изучает концепции в нескольких модальностях, в первую очередь в текстовой и визуальной областях, чтобы лучше понимать мир. Трансформер научен авторегрессивно моделировать токены текста и изображения как единый поток данных.

Применение

Генерация изображений решает две важные задачи, которые не может решить поиск:

позволяет учесть точное описание желаемого,
создаёт изображение, которое раньше не существовало.

Генерацию изображений можно использовать, например, для фото-иллюстрации статей, в копирайтинге, в рекламе.

Самая большая вычислительная задача в истории России

На кластере Christofari модель обучалась 37 дней на 512 GPU TESLA V100, и затем еще 11 дней по 128 GPU — всего 20352 GPU-дней. Наша самая большая обученная модель XXL (12 миллиардов параметров) сравнима с английской DALL-E от OpenAI!

ruDALL-E Malevich (XL)

По короткому текстовому описанию ruDALL-E генерирует яркие и красочные изображения на самые разные темы и сюжеты. Модель понимает обширный набор понятий и генерирует совершенно новые изображения и объекты, которых не существовало в реальном мире.

Параметры обучения и модели:

1,3 млрд параметров
Энкодер изображений — кастомная VQGAN модель, преобразующая картинку в последовательность из 32×32 символов
YTTM токенизатор текстов со словарем 16000 токенов
Специализированные маски attention для визуальных последовательностей
Поддержка переранжирования результатов моделью ruCLIP
Поддержка поднятия разрешения с помощью модели RealESRGAN

ruDALL-E Kandinsky (XXL)

Русская text-to-image модель, генерирующая изображения по тексту. Архитектура такая же, как у ruDALL-E XL. Ещё больше параметров в новой версии!

Параметры обучения и модели:

12 млрд параметров
Энкодер изображений — кастомная VQGAN модель, преобразующая картинку в последовательность из 32×32 символов
YTTM токенизатор текстов со словарем 16000 токенов
Специализированные маски attention для визуальных последовательностей
Поддержка переранжирования результатов моделью ruCLIP
Поддержка поднятия разрешения с помощью модели RealESRGAN

Итак, начнем:

Осенний лес с желтыми листьями в солнечную погоду

AI: создаём картинки из текстового описания

Красивый вид на город с мостами и замками

Бутон розы с каплями росы

Букет ромашек в вазе на окне.

4 кота в космосе.

Ёжик в траве.

Н-да, художник из меня никудышный.

художник из меня никудышный

По этой фразе вот что получилось:

Создаём картинки из текстового описания

Ага. Рога не мои. Симпатяга, чо.

Мне почему-то вспомнилась та игра, в которую, периодически, играем на форуме, первое слово – последняя цифра года рождения, второе – месяц, третье – число. И, в результате, получается что-то вроде «Взрывная блондинка на самокате». Интересно визуализировать

Взрывная блондинка на самокате

Сначала оно написало (я капчу русскими буквами ввела)

ruDALL-EВы ввели что-то не то в форму или неправильно заполнили каптчу

Со второй попытки, подумав некоторое время, выдало это

Создаём картинки из текстового описания

Божья коровка на листе

Чет какая-то она странненькая) Но, конечно, по сравнению со «взрывной блондинкой на самокате» сходство всё-таки есть!

Море и дюны.

«Спереди он был желтый, а сзади – стеклянный...»
(с) Описание неизвестно чего, увиденного в продаже,
данное одной моей постоянной попутчицей по электричке

Море и дюны.

Красота, прям хоть на стенку вешай!)

Лошади на водопое

Спереди он был желтый, а сзади – стеклянный

Смотрю, психоделическое в основном получается.

Немного солнца в холодной воде

C Утром в сосновом лесу практически справилось

Создаём картинки из текстового описания

А вот с лебединым озером что-то не срослось

Создаём картинки из текстового описания

C Утром в сосновом лесу практически справилось

«Зима в лесу» тоже ничего получилась) С «лесом» ОНО как-то больше дружит!

охота на уток

Создаём картинки из текстового описания

fgjrfkbgcbc

Создаём картинки из текстового описания

Самое первое что пришло на ум, глянув в окно.
Осенний листопад

Создаём картинки из текстового описания

fgjrfkbgcbc

Точно! Таким он и будет!

Розовое варенье

Видно не поняло моего текста и сгенерировало не совсем точно

Дружба собаки и кошки

Дама у окна кошмары на улице вязов

Смотрю на многие картины и чота ржу.

Решился я на отчаянный шаг: нарисовать себя!

Мой автопортрет

Так как изображение конфеденциальное и приватное, спрячу его под спойлер (чтобы не узнали):

Может, нам надо массово с такого текста сгенерировать и поставить на свои аватарки?
Только, конечно, считается только самая первая генерация.

нарисовать себя!

Да лехко!

Чет я себя не признала.

Точно! Вылитый! Я узнал его!

апокалипсис

Чет я себя не признала

не не, что то схожее с авкой есть

Мой автопортрет

Создаём картинки из текстового описания

Хм... тож не признала

Создаём картинки из текстового описания

Лёлька, ну хоть девачка. Симпатишная даже.

Как то не уверена, что это я Мужчиной себя не ощущаю

Создаём картинки из текстового описания

Закат солнца на море

Забыла как картинки вставлять

Закат солнца на море

«Печальное, но радостное лицо»
вот такой смайлик

Создаём картинки из текстового описания

по версии ИИ, это что-то типа таких

Создаём картинки из текстового описания

Ехали на тройке с бубенцами

чет тут не так

чет тут не так

Зато текст песенки есть.

А это просто КРОКОДИЛ!

Создаём картинки из текстового описания

Какой-то прям улыбчивый, наверное, патамушта беззубый)

Детский персонаж: Тяни толкай

Создаём картинки из текстового описания

Фантастический подводный мир

Прямо идеально, правда я написала кошки, а выдали одну

Создаём картинки из текстового описания

Вбил запрос Человек идет по тропинке в лесу – ИИ посчитал, что речь была о человеке-невидимке.

Создаём картинки из текстового описания

о человеке-невидимке.

Класс! Вид от первого лица.
По словосочетанию «Отпуск мечты».

Создаём картинки из текстового описания

Вид от первого лица.

Точно. Как не догадался.

По словосочетанию «Отпуск мечты».

Вот бы понять, что там в пляжных тумбочках на полочках для мечты-мечты.

на полочках

На одной точно должен быть счастливый ветер перемен, тёплый, попутный, и приносящий радостные известия.

А вот музыка из текстовых описаний:

НЕЙРОСЕТЬ ПЕРЕВОДИТ ТЕКСТ В МУЗЫКУ (и пугает меня) #mubert

Вполне себе подойдёт для заставок и прочего.

И, в общем, генерация по ссылке в первом посте – полный шлак. Есть намного более реалистичные.

Например, вот эта .

Сравниваем запрос «Свиные отбивные с опятами в сыре и с луком».

Результат сабжевого генератора:

Создаём картинки из текстового описания

Результат нового:

Создаём картинки из текстового описания

Пробуйте сами.

Свежеиспеченный хлеб:

Создаём картинки из текстового описания

Платить моделям (например, для продажи одежды на маркетплейсах) теперь .

А можно на основе своей (или любой другой фотографии) сгенерировать «новую личность» (например, для аватарки).

Но Midjourney, конечно, бьет многих. Там можно не только из текста, но и из нескольких изображений сгенерировать новые:

Пробуйте сами.

Задумчивый самурай любуется цветущей сакурой.

AI: создаём картинки из текстового описания

Запрос этой и следующих не помню. Поэтому считайте, что «Новый писк каблучной моды».

AI: создаём картинки из текстового описания

Мальчик искренне радуется третьей руке с хлебом.

AI: создаём картинки из текстового описания

Девочка в свитере решила обнять котёнка, но что-то пошло не так.

AI: создаём картинки из текстового описания

Шеф-
а чего не так?
тут дело в усилии объятия, ещё малька и --котёнок решил обнять девочку в свитере

Романтический завтрак для двоих на весенней веранде.
Почему-то вспомнилась фраза из к/ф "Брилллиантовая рука".

AI: создаём картинки из текстового описания

Поэтому считайте, что «Новый писк каблучной моды».

Шеф, картинка создана Midjourney?

Решился я на отчаянный шаг: нарисовать себя!
Только, конечно, считается только самая первая генерация.

Мой автопортрет.

Рассвет и горизонт на мысе Рока.

AI: создаём картинки из текстового описания

Букет лаванды лежит на качелях.

AI: создаём картинки из текстового описания

Не так уж и плох художник.

Запросила осенний сад в дымке тумана

AI: создаём картинки из текстового описания

можно на основе своей (или любой другой фотографии) сгенерировать «новую личность» (например, для аватарки

Ещё где то была развлекушечка сгенерировать другой пол

Я мужчина, в полном расцвете сил в стиле portrait.

Действительно, к чему подробности? Цвет глаз, волос, черты лица... Харизму всё равно по фото не передашь, но Художник уловил суть.
Сергей13, не обижайтесь, я без желания задеть. Просто так явно на контрасте с собственной попыткой объяснить ИИ линии и черты.

AI: создаём картинки из текстового описания

Цель

Применение

Самая большая вычислительная задача в истории России

ruDALL-E Malevich (XL)

Параметры обучения и модели:

ruDALL-E Kandinsky (XXL)

Параметры обучения и модели:

Осенний лес с желтыми листьями в солнечную погоду

Красивый вид на город с мостами и замками

Похожее

Бутон розы с каплями росы

Букет ромашек в вазе на окне.

4 кота в космосе.

Ёжик в траве.

Божья коровка на листе

Море и дюны.

Лошади на водопое

Немного солнца в холодной воде

Розовое варенье

Дружба собаки и кошки

Дама у окна кошмары на улице вязов

Мой автопортрет

Ехали на тройке с бубенцами

Фантастический подводный мир

Интересное в разделе «Фотозакуток»

Новое на сайте