Она моментально взорвала интернет громкими заголовками: «Мировая модель, которая растоптала Midjourney», «Самая лучшая модель с новым подходом к генерации изображения», «Сверхбыстрый генератор изображений», «Бесплатная замена Midjourney».
Мы решили проверить, что из этого — правда, и самостоятельно протестировали нейросети. В этой статье разберемся, правда ли эта нейросеть так хороша или же это — обычный пиар.
Flux.1 — нейросеть для генерации изображений высокого качества по текстовому промту. У Flux есть три версии, которые претендуют на звание лучших продуктов в индустрии: Flux.1 schnell, Flux.1 dev и Flux.1 pro.
Чтобы проверить, как работают версии моделей Flux.1 schnell и Flux.1 dev, мы будем использовать бесплатный онлайн-сервис Hugging Face. На нем модель schnell быстро и бесплатно генерирует изображения неограниченное количество раз.
А вот модель dev бесплатно сможет сгенерировать 10 запросов. Потом из-за «большой очереди» придется ждать несколько часов, либо приобрести подписку за 10$ в месяц. На сервисе есть следующие настройки генерации:
Чтобы проверить, как работает каждая из версий Flux, введем одинаковую текстовую задачу:
Two colorful fluffy cats are sitting on the tiled roof of an old house near the attic and watching the sunset.
Запросы необходимо писать на английском языке. Версия schnell русский язык воспринимает, но запрос выполняет неточно. А модель dev при генерации картинки выдает ошибку.
Два разноцветных пушистых кота сидят на черепичной крыше старого дома возле чердака и смотрят на закат. — Перевод.
Такое изображение нам сгенерировала версия Flux.1 schnell. Генерация заняла где-то 15-20 секунд при базовых настройках. У изображения высокая детализация шерсти и черепицы крыши.
Есть проблемы с изображением мордочек, и у одного из котов обрезан хвост. Но запрос выполнен, все пункты в картинке отражены.
При одних и тех же параметрах будут генерироваться разные изображения. Причем следующие картинки выходят более качественными.
Flux.1 dev справилась с генерацией где-то за 50-60 секунд и выдала следующий результат.
В иллюстрации хорошо выстроена композиция, прекрасная детализация шерсти. У одного из котов есть проблемы с анатомией — слишком уж сильно повернута голова. Но запрос также выполнен полностью.
С повторным запросом Flux.1 dev справилась гораздо лучше.
Модель Flux.1 pro будем тестировать на онлайн-ресурсе Krea. Pro-версию добавили на сайт недавно, и пока ей можно пользоваться бесплатно.
У pro-версии вышел такой результат:
Сразу бросается в глаза отличное качество изображения и детализация. Каких-то видимых недочетов нет. Так как мы использовали бесплатный ресурс, то сложно сказать, сколько по времени заняла генерация изображения. Пришлось прождать в очереди около 2-х минут.
Midjourney — нейросеть, которая позволяет создавать иллюстрации на основе текста. У Midjourney не было явных конкурентов в быстрой и качественной генерации изображения. И тут Black Forest Labs выпускает новую нейросеть, которая работает тоже по текстовому промпту. Производители заявляют, что Flux генерирует изображения быстрее и качественнее Midjourney. К тому же еще и бесплатно!
Чтобы проверить это, для начала посмотрим, как с точно таким же запросом справится Midjourney.
Сразу хочется отметить отличное качество изображения и сходство с фотографией. Хорошая детализация крыши и шерсти. Особенно выделяются глаза, в которых заметен блеск. Но есть нарушения в пропорциях животных.
А теперь сравним, как pro-версия Flux и Midjourney справляются с более сложными задачами. Многие хвалят Flux за качественную генерацию текста на изображении. Протестируем следующий запрос: «The inscription with the text May the Force be with you».
Надпись с текстом: Да пребудет с вами сила. — Перевод.
Flux.1 pro выполнил запрос таким образом:
Нейросеть действительно хорошо работает с текстом. Из четырех сгенерированных картинок только в одной присутствуют ошибки, и еще одна получилась совсем без текста. Но результат хороший — Flux действительно неплохо справляется с генерацией текста.
Следующие результаты получились у Midjourney:
С текстом нейросеть не справилась. На каждой иллюстрации есть ошибки. Но у Midjourney творческий подход к генерации. Нейросеть распознала фразу из фильма и даже сделала из него персонажей, что впечатляет.
По результатам генерации текста выигрывает Flux. Текст получился четким и в большинстве случаев без ошибок. Но если рассматривать креативную составляющую, то победитель здесь Midjourney.
Теперь проверим, как нейросети справятся с изображением нескольких людей в кадре. Вводим запрос: «A photo of three girls and two guys having fun on the beach».
Фотография трех девушек и двух парней, веселящихся на пляже. — Перевод.
Flux с задачей справился. Почти на всех картинках изображено пять человек, но соотношение девушек и парней не соответствует промту. Люди выглядят реалистично, как будто это действительно фотография. Есть проблемы с пальцами. Можно заметить поломанные, шестые или неестественно выгнутые.
Midjourney хуже справилась с запросом, поскольку на картинках изображено менее пяти людей. Тоже возникли проблемы с пальцами, которые сильно бросаются в глаза. Но к качеству изображений нет претензий, они также получились похожими на фотографии.
Пальцы — слабое место у всех нейросетей. Но всё-таки Flux справился с этой задачей лучше. Теперь протестируем еще одну слабость ИИ — изображение человека, который что-то ест. Обычно при генерации таких изображений у людей ломаются пальцы и искажается лицо.
Проверим, как с этим тестом справятся нейросети. Создаем запрос: «A photo of a girl holding a burrito to her wide-open mouth».
Фотография девушки, прижимающей буррито к своему широко открытому рту. — Перевод.
Flux.1 pro прекрасно справилась с задачей. Лица вышли реалистичными, все пальцы на месте и даже не переломаны. Единственный недочет — на последней иллюстрации лицо у девочки размыто.
Уникальные картинки невероятного качества для коммерческого использования
Хочется обратить внимание на детализацию глаз. Отражение света на радужке выглядит естественно. Да и буррито получилось аппетитным.
Midjourney с изображением лиц справилась хорошо, все четко и нет размытых кадров. Но вот пальцы на некоторых картинках все-таки сломались.
Детализация изображений на высоком уровне. На иллюстрациях можно заметить морщинки, веснушки и реалистичный блеск в глазах.
Позаимствуем и протестируем готовую подсказку у Black Forest Labs:
«Underwater scene of two owls sitting at a fancy dining table with a lit candle in the center, the two owls are having a lovely dinner together. The left owl is wearing a tuxedo, the right owl is wearing a nice dress. In the background is a submarine passing by with the words “What a Hoot” painted on its side. There are little jellyfish swimming around at the bottom of the image below the table, cinematic beautiful digital artwork».
Подводная сцена двух сов, сидящих за шикарным обеденным столом с зажженной свечой в центре, две совы мило ужинают вместе. Левая сова одета в смокинг, а правая - в красивое платье. На заднем плане проплывает подводная лодка, на боку которой нарисована надпись «What a Hoot». В нижней части изображения под столом плавают маленькие медузы - кинематографически красивая цифровая работа. — Перевод.
Разработчики утверждают, что Flux лучше всего работает с четкими и детализированными промптами. Мы видим, что модель действительно выполнила задачу на 100%. Все детали в картинке отражены, качество на высшем уровне.
Midjourney тоже справилась с задачей. Но на второй картинке откуда-то появилась надпись на столе, которой не было в промте.
Flux.1 и Midjourney — мощные инструменты в области генерации изображений с помощью ИИ. У каждой модели есть свои преимущества и недостатки. Если Вам необходимо решить творческую задачу, то для работы лучше использовать Midjourney. Если необходимо сгенерировать изображение четко по текстовому промту — обращаемся к Flux.1.