4 сентября 2024 г.

#Технологии #Генерация видео #Марина Лужецкая

Обзор нейросети Video-01 от Minimax: мини-фильмы не хуже Голливуда?

Несколько дней назад китайский стартап MiniMax выкатил новый алгоритм video-1, который способен генерировать небольшие видеоклипы на основе текстовых подсказок.

Марина Лужецкая

Редакция Gerwin

Обзор нейросети Video-01 от Minimax: собственные мини-фильмы не хуже Голливуда?

Что за MiniMax и в чем особенность этой генеративный модели?

MiniMax — новый видеогенератор искусственного интеллекта из Китая. Он привлек внимание возможностью создавать гиперреалистичные кадры людей. Некоторые заголовки в новостях обещают, что с помощью такой нейросети можно создавать собственные клипы или даже короткометражные фильмы.

— Тестируем Video-01

— Сложные запросы

— Функция text-to-video

— Какие изображения грузить в Minimax

— Оживляем фото в Minimax

Сама нейросеть разработана стартапом Minimax при поддержке гигантов Alibaba и Tencent.

Мы добились значительного прогресса в создании видеомоделей, и, основываясь на внутренних оценках и баллах, наши показатели по созданию видеороликов превосходят показатели Runway
Ян Цзюньцзе
Founder MiniMax
Ян Цзюньцзе

Video-01 — это первая версия инструмента компании, похожего на Sora, и создатели обещают, что в будущем пользователи смогут создавать видеоролики из изображений. Сейчас модель способна делать видео на основе текстового промта до 6 секунд. На обработку запроса ей понадобится чуть больше 2 минут. Информации об ограничениях на бесплатные генерации нет.

С чем придется работать: особенности сервиса

Вся работа с нейросетью базируется на искусственном интеллекте Hailuo, во вкладке video. Регистрироваться на сервисе не нужно — можно просто перейти по ссылке и сразу начать творить.

Язык на странице может смутить — все только на китайском, и поменять его нельзя. Но, как и в любой сети, здесь есть поле для ввода промта и кнопка для получения результата — все понятно интуитивно.

Сайт MiniMax доступен только на китайском языке

hailuoai.com/video

Ниже находится раздел с рекомендуемыми видео, чтобы пользователи понимали, какой результат можно получить. Эти видео можно скачать и использовать, если что-то приглянулось.

Лента генеративных видеороликов

hailuoai.com

Там же рядом находится раздел с теми видео, которые вы создали самостоятельно. Они сохраняются там даже при перезагрузке или закрытии страницы.

Hailuo AI в Discord

При желании можно зайти в Discord на сервер Hailuo AI — с 3 сентября сервис добавил возможность авторам общаться там и создавать видео по аналогии с Midjourney. Пока что там можно показать свои кейсы с видео и высказать мнение о работе с этим инструментом. В дальнейшем, скорее всего, через этот сервер можно будет генерировать видео по запросу.

Hailuo AI

discord.com

Там же можно будет общаться в чате и взаимодействовать с другими авторами контента. Пока что их немного — на момент написания к серверу подключились 36 человек. Но учитывая, что нейросеть вышла в свет всего пару дней назад — скоро там явно будет ажиотаж.

Тестируем Video-01 на полную: как генерировать и что вообще писать

Как я выше написала, нет необходимости регистрироваться на сервере — по крайней мере, пока что эту фичу не добавили. Сейчас любой пользователь может войти на страницу и начать работать с нейросетью.

В строке промпта нужно указать, какой видеоконтент вы хотите создать. Я перевела страницу, и там можно увидеть примеры описания, которые подойдут для генерации видео.

Промпт на русском языке

MiniMax

Сначала пробуем вставить промпт на русском — пока нет информации о том, какие языки нейросеть воспринимает. Хотя она и заявлена, как международное, есть подозрение, что придется писать запрос на английском языке.

Нейросеть не дала нам сгенерировать видео по нашему запросу, указав, что есть какая-то ошибки при вводе на русском.

Значит, универсально можно использовать промпт именно на английском языке. Переводим наш запрос и отправляем видео на генерацию:

An astronaut looks at the Earth from space. The planet explodes and he slowly moves away from this explosion in complete pitch darkness, illuminated only by the rays of the explosion

Перед нами 152 человека, а значит, видео будет создаваться чуть дольше, чем мы планировали — до 5 минут.

В течение 5 минут нейросеть сгенерировала видео, похожее на наш запрос, хотя и немного опустил некоторые детали. Качество контент неплохое, но не HD, это нужно будет учитывать. В итоге мы получили такой результат:

Попробуем конкретизировать и добавить немного драмы в этот промпт. Пока что никаких ограничений по созданию контента я не получила, а значит, можно пока что генерировать столько, сколько захочется.

Следующий наш запрос будет таким:

A close-up of an astronaut is shown to us. In the reflection of his helmet, you can see how the Earth he is looking at explodes and his expression becomes first horrified, and then desperate

Также ждем свою очередь и смотрим на наш результат:

Оцените генерацию изображений

Регистрация

Уникальные картинки невероятного качества для коммерческого использования

Нейросеть опять немного не так поняла запрос, но в этот раз взрыв действительно выглядит масштабнее, а сгенерированный космонавт уже показывает нам больше эмоций, чем первый. Появилось больше драмы, больше экспрессии, что уже неплохо. Но для четкого кадра надо подробнее описывать свой запрос и делать несколько попыток.

Сложные запросы: как нейросеть справляется с эмоциями, руками и текстом

До этого мы писали достаточно простые запросы — просто показать какую-то несложную динамику и немного лица человека. Но что насчет эмоций людей и генерации рук? Обычно именно с этим ИИ не справляется.

Вводим подробный запрос, где описываем эмоции человека и обязательно упоминаем руки:

From the middle frame, a tall, beautiful girl with long brown hair turns to the viewer. She turns around and waves at us. And then she starts running towards us and the shot ends with a close-up on her face, where she smiles broadly and we see her freckles all over her face

Результат с этого запроса мы получили такой:

Практически все условия нейросеть учла, но в видео все равно присутствует неестественное движение. В целом неплохо и качественно — на руке есть все 5 пальцев, а эмоции кажутся практически настоящими.

Но сможет ли нейросеть справиться с несколькими людьми на кадре? Давайте проверим.

Вводим следующий промпт:

A large family gathered together for lunch, there is a TV in the kitchen, and at the moment when the family is having lunch and talking, footage of the explosion of the city is shown on this TV. In the end, everything turns white

Во время генерации количество людей на сервере постоянно меняется — то 150, то 250 создают видео в этот же момент. Соответственно, ожидание может увеличиваться до 10 минут — это нужно учитывать при создании видео.

Нейросеть увидела наш промпт таким образом:

С большим количеством людей нейросеть справляется уже немного хуже. Что можно заметить:

Центральный персонаж стал жертвой генерации и вместо нормального лица мы видим следы ошибки нейросети.
Движения не естественные — особенно это видишь, когда пересматриваешь видео пару раз.
Практически все руки персонажей выглядят нормально, но некоторые разворачивают кисти так, что руки становятся похожи на клешни.

В целом, получается неплохой результат, и при быстром просмотре ошибки не так сильно бросаются в глаза.

В последний раз проверим, насколько хорошо работает Video-01. Теперь мы хотим получить видео, где будет видно текст, и он должен выглядеть нормально. Вводим следующий запрос:

An old-fashioned movie set in sepia tones with an ornate frame and classic font. The text: Go away and save yourself soon appears in the center, accompanied by a subtle film grain effect and the flicker of old film. After that, we see a shot of Doctor Who, played by Matt Smith

Как раз за счет этого промпта посмотрим, насколько хорошо нейросеть может воссоздавать лица знаменитостей в видео.

Видим, что с текстом нейросеть справилась на 60-70%. Основная фраза, которую мы просили, почти вся написана. Но при этом внизу появляется странная строчку, о которой в промпте не было ни слова. Кроме того, нейросеть не смогла воспроизвести лицо актера Мэтта Смита. Значит, такие запросы для нейросети еще сложнее.

Особенно сервис не воспринимает русский язык — мы запросили написать конкретную фразу, но вместо этого получили странный набор букв.

Значит, это одно из слабых мест нейросети, которое разработчики должны исправить и внести изменения. По крайней мере, чтобы соревноваться с другими генеративными моделями, это необходимо выполнить.

Итог: что можно сказать про Video-01 от Minimax

MiniMax video-01 — хорошая модель, которая работает по тому же принципу, что и эквивалентная Luma Labs Dream Machine, но не такая хорошая, как Runway Gen-3, несмотря на заявления генерального директора.

Какие минусы я могла бы выделить:

Нейросеть не всегда хорошо распознает запросы. Обычно она выполняет его на 70-80%.
Когда запрос просит сделать много людей, ошибки генерации заметнее.
Есть неестественность движения. Любой продвинутый пользователь поймет, что перед ним видео, сгенерированное нейросетью. А ведь иногда хочется добиться максимальной реалистичности.

Нейросеть плохо воспринимает лица знаменитостей и просьбу вставить определенный текст. Тем не менее MiniMax неплохо справился с генерацией человеческих движений. Сейчас это пока сырая версия, и производители обещают, что улучшения будут уже через несколько недель, а не месяцев. Поэтому за этим сервисом стоит наблюдать и оценивать, какие фичи добавят уже в следующем месяце.

Поэтому будем следить и дополнять информацию по поводу обновлений MiniMax video-01!

Обновление от 8 октября 2024: В китайской нейросети Minimax появилась функция text-to-video

Text-to-video (генерация видео по текстовому запросу) — новый релиз от команды Minimax. В связи с этим стоит добавить несколько слов о нововведении и его результатах.

Img-to-video Minimax

hailuoai.video

Какие изображения грузить в Minimax (HailuoAI)

Немного покопавшись в китайском интерфейсе, можно найти требования к формату изображений для загрузки в нейросеть:

Поддерживаются одиночные изображения в формате JPG/JPEG/PNG размером до 20 Мб, с соотношением сторон от 2:5 до 5:2 и не менее 300 пикселей по короткой стороне.

Чтобы лучше понять, что эти цифры значат, мы приведем примеры форматов, которые вписываются в требуемый диапазон: 1:1, 16:9, 9:16, 2:3, 3:2, 4:3, 3:4. Т.е. заявлена поддержка как горизонтальных, так и вертикальных изображений, а также квадратных.

Оживляем фото в Minimax

Для теста используем картинку, предварительно сгенерированную в Gerwin AI: реалистичное и детализированное фото хипстера.

Портрет мужчины хипстера, красивый, 45 лет

Gerwin AI

Грузим картинку (благо иконки на китайском выглядят также, как и на других языках) и добавляем свой промпт: «Эмоции удивления на лице». Напоминаем, что промпт на английском нужно писать.

Ждем чуть более 10 минут, потому что «в очереди 1045 человек», и получаем результат:

Тестирование на официальном сайте Minimax (HailuoAI) по-прежнему бесплатное, поэтому, если интересно, попробуйте воспользоваться сервисом. Мы прогнозируем, что к концу 2024 года появится несколько релизов, которые будут намного ближе к тому, чтобы генеративные видео можно было использовать повсеместно. Для сравнения, в нашей подборке сервисов генераторов видео от начала этого года не было достойных моделей для коммерческого применения. Ситуация меняется достаточно быстро.