Принёс интересное развлечение. Вкратце: можно словами описать то, что вы хотите видеть в результате, и на основе этого теста сгенерировать готовое изображение.
Предлагаю выкладывать в этой теме своё описание и получившийся шедевр!
Задача — создать «мультимодальную» нейронную сеть, которая изучает концепции в нескольких модальностях, в первую очередь в текстовой и визуальной областях, чтобы лучше понимать мир. Трансформер научен авторегрессивно моделировать токены текста и изображения как единый поток данных.
Генерация изображений решает две важные задачи, которые не может решить поиск:
Генерацию изображений можно использовать, например, для фото-иллюстрации статей, в копирайтинге, в рекламе.
На кластере Christofari модель обучалась 37 дней на 512 GPU TESLA V100, и затем еще 11 дней по 128 GPU — всего 20352 GPU-дней. Наша самая большая обученная модель XXL (12 миллиардов параметров) сравнима с английской DALL-E от OpenAI!
Итак, начнем:

Предлагаю выкладывать в этой теме своё описание и получившийся шедевр!
Цель
Задача — создать «мультимодальную» нейронную сеть, которая изучает концепции в нескольких модальностях, в первую очередь в текстовой и визуальной областях, чтобы лучше понимать мир. Трансформер научен авторегрессивно моделировать токены текста и изображения как единый поток данных.
Применение
Генерация изображений решает две важные задачи, которые не может решить поиск:
- позволяет учесть точное описание желаемого,
- создаёт изображение, которое раньше не существовало.
Генерацию изображений можно использовать, например, для фото-иллюстрации статей, в копирайтинге, в рекламе.
Самая большая вычислительная задача в истории России
На кластере Christofari модель обучалась 37 дней на 512 GPU TESLA V100, и затем еще 11 дней по 128 GPU — всего 20352 GPU-дней. Наша самая большая обученная модель XXL (12 миллиардов параметров) сравнима с английской DALL-E от OpenAI!
ruDALL-E Malevich (XL)
По короткому текстовому описанию ruDALL-E генерирует яркие и красочные изображения на самые разные темы и сюжеты. Модель понимает обширный набор понятий и генерирует совершенно новые изображения и объекты, которых не существовало в реальном мире.
Параметры обучения и модели:
- 1,3 млрд параметров
- Энкодер изображений — кастомная VQGAN модель, преобразующая картинку в последовательность из 32×32 символов
- YTTM токенизатор текстов со словарем 16000 токенов
- Специализированные маски attention для визуальных последовательностей
- Поддержка переранжирования результатов моделью ruCLIP
- Поддержка поднятия разрешения с помощью модели RealESRGAN
ruDALL-E Kandinsky (XXL)
Русская text-to-image модель, генерирующая изображения по тексту. Архитектура такая же, как у ruDALL-E XL. Ещё больше параметров в новой версии!
Параметры обучения и модели:
- 12 млрд параметров
- Энкодер изображений — кастомная VQGAN модель, преобразующая картинку в последовательность из 32×32 символов
- YTTM токенизатор текстов со словарем 16000 токенов
- Специализированные маски attention для визуальных последовательностей
- Поддержка переранжирования результатов моделью ruCLIP
- Поддержка поднятия разрешения с помощью модели RealESRGAN
Итак, начнем:
Осенний лес с желтыми листьями в солнечную погоду

Красивый вид на город с мостами и замками
