Обучение нейросети
Читать
Журнал Gerwin
Журнал Gerwin

Подробный обзор на Flux — «убийцу» Midjourney

В начале августа компания Black Forest Labs объявила о новой нейросети Flux.1
Подробный обзор на Flux — «убийцу» MidjourneyПодробный обзор на Flux — «убийцу» Midjourney

Она моментально взорвала интернет громкими заголовками: «Мировая модель, которая растоптала Midjourney», «Самая лучшая модель с новым подходом к генерации изображения», «Сверхбыстрый генератор изображений», «Бесплатная замена Midjourney».

Мы решили проверить, что из этого — правда, и самостоятельно протестировали нейросети. В этой статье разберемся, правда ли эта нейросеть так хороша или же это — обычный пиар.

Генеративная нейросеть Flux.1
Генеративная нейросеть Flux.1
blackforestlabs.ai/#get-flux

Что за Flux и в чем его особенность?

Flux.1 — нейросеть для генерации изображений высокого качества по текстовому промту. У Flux есть три версии, которые претендуют на звание лучших продуктов в индустрии: Flux.1 schnell, Flux.1 dev и Flux.1 pro.

Статистика с сайта Black Forest Labs
Статистика с сайта Black Forest Labs
blackforestlabs.ai/announcing-black-forest-labs
  • Flux.1 pro — самая продвинутая версия модели, которая выполняет запрос и генерирует изображения с высоким качеством и детализацией. Эту версию можно использовать в коммерческих целях, доступна через Replicate и fal.ai.
  • Flux.1 dev — открытая версия, которая предназначена для некоммерческого использования. Ее разработали на основе Flux.1 pro, поэтому она также выдает изображения в высоком качестве, но генерирует их еще быстрее. Доступна на Hugging Face и опробовать её можно на Replicate, fal.ai, Mystic и Deepinfra.
  • Flux.1 schnell — cамая быстрая версия модели, которая предназначена для личного и коммерческого использования. Но изображения у этой версии не такие детализированные и точные, как у предыдущих моделей. Находится в открытом доступе под лицензией Apache 2.0.

Чтобы проверить, как работают версии моделей Flux.1 schnell и Flux.1 dev, мы будем использовать бесплатный онлайн-сервис Hugging Face. На нем модель schnell быстро и бесплатно генерирует изображения неограниченное количество раз.

А вот модель dev бесплатно сможет сгенерировать 10 запросов. Потом из-за «большой очереди» придется ждать несколько часов, либо приобрести подписку за 10$⁣ в месяц. На сервисе есть следующие настройки генерации:

  1. Seed — стартовый шум в виде случайного числа, из которого нейросеть формирует изображение. При одинаковом seed и запросе генерируются одинаковые картинки. Поэтому можно использовать то же число, чтобы внести изменения в сгенерированное изображение.
  2. Width — ширина изображения от 256 до 2048 пикселей. Чем больше разрешение, тем качественнее будет изображение, но генерироваться оно будет дольше.
  3. Height — высота изображения с таким же разрешением.
  4. Guidance Scale — шкала соответствия. Параметр определяет, насколько нейросеть точно выполнит запрос по промту. Если значение на шкале ниже среднего, то нейросеть воспользуется своим воображением и добавит интересные детали в картинку. Высокие значения заставляют нейросеть точно следовать запросу.
  5. Number of inference steps — количество шагов, за которые модель генерирует изображение. Чем больше шагов, тем качественнее будет результат, но больше времени уйдет на обработку запроса.
Image

Чтобы проверить, как работает каждая из версий Flux, введем одинаковую текстовую задачу:

Two colorful fluffy cats are sitting on the tiled roof of an old house near the attic and watching the sunset.

Запросы необходимо писать на английском языке. Версия schnell русский язык воспринимает, но запрос выполняет неточно. А модель dev при генерации картинки выдает ошибку.

Два разноцветных пушистых кота сидят на черепичной крыше старого дома возле чердака и смотрят на закат. — Перевод.

Результат генерации нейросети «Flux.1 schnell»
Результат генерации нейросети «Flux.1 schnell»

Такое изображение нам сгенерировала версия Flux.1 schnell. Генерация заняла где-то 15-20 секунд при базовых настройках. У изображения высокая детализация шерсти и черепицы крыши.

Есть проблемы с изображением мордочек, и у одного из котов обрезан хвост. Но запрос выполнен, все пункты в картинке отражены.

При одних и тех же параметрах будут генерироваться разные изображения. Причем следующие картинки выходят более качественными.

Результат генерации «Flux.1 schnell»
Результат генерации «Flux.1 schnell»

Flux.1 dev справилась с генерацией где-то за 50-60 секунд и выдала следующий результат.

Результат генерации «Flux.1 dev»
Результат генерации «Flux.1 dev»

В иллюстрации хорошо выстроена композиция, прекрасная детализация шерсти. У одного из котов есть проблемы с анатомией — слишком уж сильно повернута голова. Но запрос также выполнен полностью.

С повторным запросом Flux.1 dev справилась гораздо лучше.

Результат генерации «Flux.1 dev»
Результат генерации «Flux.1 dev»

Модель Flux.1 pro будем тестировать на онлайн-ресурсе Krea. Pro-версию добавили на сайт недавно, и пока ей можно пользоваться бесплатно.

У pro-версии вышел такой результат:

Результат генерации «Flux.1 pro»
Результат генерации «Flux.1 pro»

Сразу бросается в глаза отличное качество изображения и детализация. Каких-то видимых недочетов нет. Так как мы использовали бесплатный ресурс, то сложно сказать, сколько по времени заняла генерация изображения. Пришлось прождать в очереди около 2-х минут.

Почему при появлении Flux.1 все заговорили о Midjourney?

Midjourney — нейросеть, которая позволяет создавать иллюстрации на основе текста. У Midjourney не было явных конкурентов в быстрой и качественной генерации изображения. И тут Black Forest Labs выпускает новую нейросеть, которая работает тоже по текстовому промпту. Производители заявляют, что Flux генерирует изображения быстрее и качественнее Midjourney. К тому же еще и бесплатно!

Чтобы проверить это, для начала посмотрим, как с точно таким же запросом справится Midjourney.

Результат генерации «Midjourney»
Результат генерации «Midjourney»

Сразу хочется отметить отличное качество изображения и сходство с фотографией. Хорошая детализация крыши и шерсти. Особенно выделяются глаза, в которых заметен блеск. Но есть нарушения в пропорциях животных.

Flux.1 AI vs Midjourney

А теперь сравним, как pro-версия Flux и Midjourney справляются с более сложными задачами. Многие хвалят Flux за качественную генерацию текста на изображении. Протестируем следующий запрос: «The inscription with the text May the Force be with you».

Надпись с текстом: Да пребудет с вами сила. — Перевод.

Flux.1 pro выполнил запрос таким образом:

Результат генерации «Flux.1 pro»
Результат генерации «Flux.1 pro»

Нейросеть действительно хорошо работает с текстом. Из четырех сгенерированных картинок только в одной присутствуют ошибки, и еще одна получилась совсем без текста. Но результат хороший — Flux действительно неплохо справляется с генерацией текста.

Следующие результаты получились у Midjourney:

Результат генерации «Midjourney»
Результат генерации «Midjourney»

С текстом нейросеть не справилась. На каждой иллюстрации есть ошибки. Но у Midjourney творческий подход к генерации. Нейросеть распознала фразу из фильма и даже сделала из него персонажей, что впечатляет.

По результатам генерации текста выигрывает Flux. Текст получился четким и в большинстве случаев без ошибок. Но если рассматривать креативную составляющую, то победитель здесь Midjourney.

Теперь проверим, как нейросети справятся с изображением нескольких людей в кадре. Вводим запрос: «A photo of three girls and two guys having fun on the beach».

Фотография трех девушек и двух парней, веселящихся на пляже. — Перевод.

Flux с задачей справился. Почти на всех картинках изображено пять человек, но соотношение девушек и парней не соответствует промту. Люди выглядят реалистично, как будто это действительно фотография. Есть проблемы с пальцами. Можно заметить поломанные, шестые или неестественно выгнутые.

Результат генерации «Flux.1 pro»
Результат генерации «Flux.1 pro»

Midjourney хуже справилась с запросом, поскольку на картинках изображено менее пяти людей. Тоже возникли проблемы с пальцами, которые сильно бросаются в глаза. Но к качеству изображений нет претензий, они также получились похожими на фотографии.

Результат генерации «Midjourney»
Результат генерации «Midjourney»

Пальцы — слабое место у всех нейросетей. Но всё-таки Flux справился с этой задачей лучше. Теперь протестируем еще одну слабость ИИ — изображение человека, который что-то ест. Обычно при генерации таких изображений у людей ломаются пальцы и искажается лицо.

Проверим, как с этим тестом справятся нейросети. Создаем запрос: «A photo of a girl holding a burrito to her wide-open mouth».

Фотография девушки, прижимающей буррито к своему широко открытому рту. — Перевод.

Flux.1 pro прекрасно справилась с задачей. Лица вышли реалистичными, все пальцы на месте и даже не переломаны. Единственный недочет — на последней иллюстрации лицо у девочки размыто.

Оцените генерацию изображений

Уникальные картинки невероятного качества для коммерческого использования

Результат генерации «Flux.1 pro»
Результат генерации «Flux.1 pro»

Хочется обратить внимание на детализацию глаз. Отражение света на радужке выглядит естественно. Да и буррито получилось аппетитным.

Midjourney с изображением лиц справилась хорошо, все четко и нет размытых кадров. Но вот пальцы на некоторых картинках все-таки сломались.

Результат генерации «Midjourney»
Результат генерации «Midjourney»

Детализация изображений на высоком уровне. На иллюстрациях можно заметить морщинки, веснушки и реалистичный блеск в глазах.

Напоследок сравним, как Flux.1 и Midjourney справляются со сложными запросами.

Позаимствуем и протестируем готовую подсказку у Black Forest Labs:

«Underwater scene of two owls sitting at a fancy dining table with a lit candle in the center, the two owls are having a lovely dinner together. The left owl is wearing a tuxedo, the right owl is wearing a nice dress. In the background is a submarine passing by with the words “What a Hoot” painted on its side. There are little jellyfish swimming around at the bottom of the image below the table, cinematic beautiful digital artwork».

Подводная сцена двух сов, сидящих за шикарным обеденным столом с зажженной свечой в центре, две совы мило ужинают вместе. Левая сова одета в смокинг, а правая - в красивое платье. На заднем плане проплывает подводная лодка, на боку которой нарисована надпись «What a Hoot». В нижней части изображения под столом плавают маленькие медузы - кинематографически красивая цифровая работа. — Перевод.

Разработчики утверждают, что Flux лучше всего работает с четкими и детализированными промптами. Мы видим, что модель действительно выполнила задачу на 100%. Все детали в картинке отражены, качество на высшем уровне.

Результат генерации «Flux.1 pro»
Результат генерации «Flux.1 pro»

Midjourney тоже справилась с задачей. Но на второй картинке откуда-то появилась надпись на столе, которой не было в промте.

Результат генерации «Midjourney»
Результат генерации «Midjourney»

Подводим итоги: что лучше и кто кого «убил»?

  1. Качество изображения и детализация. Flux.1 и Midjourney генерируют изображения в высоком качестве и справляются с задачей на одном уровне, даже если дается сложный запрос.
  2. Точность выполнения запросов. Flux.1 лучше справляется со сложными запросами, у Midjourney все-таки есть погрешности.
  3. Скорость и эффективность. Если сравнивать Flux.1 schnell и Midjourney, то Flux обрабатывает запросы быстрее. Но в статье мы сравнивали Midjourney с pro-версией, скорость обработки которых нам не удалось сопоставить из-за «очередей» на бесплатном ресурсе.
  4. Разнообразие и креативность. В этом критерии Flux уступает Midjourney. Midjourney не только лучше обрабатывает абстрактные или фантазийные запросы, но даже из обычной задачи генерирует интересные сюжеты.
  5. Анатомия человека и реализм. Обе модели генерируют реалистичные изображения, но с анатомией лучше справляется Flux. У Midjourney хуже вырисовываются пальцы.
Еще нет аккаунта в Gerwin AI?

Пора исправлять ситуацию

Flux.1 и Midjourney — мощные инструменты в области генерации изображений с помощью ИИ. У каждой модели есть свои преимущества и недостатки. Если Вам необходимо решить творческую задачу, то для работы лучше использовать Midjourney. Если необходимо сгенерировать изображение четко по текстовому промту — обращаемся к Flux.1.