Журнал Gerwin
Журнал Gerwin

Veo — генерация видео от Google: что известно после анонса

На конференции разработчиков Google I/O 2024, которая прошла во вторник, была представлена модель ИИ — Veo. Она может создавать видеоклипы на основе текстовой подсказки.
Veo — генерация видео от Google: что известно после анонсаVeo — генерация видео от Google: что известно после анонса

На конференции разработчиков Google I/O 2024, которая прошла во вторник, была представлена модель ИИ — Veo. Она может создавать видеоклипы на основе текстовой подсказки.Модель Veo способна создавать видеоролики продолжительностью до минуты с разрешением 1080p, учитывая контекст, считывая визуальные и кинематографические стили, понимая снимки пейзажей и замедленную съемку. Кроме того, модель может внести изменения в уже созданные кадры.

Демис Хассабис, руководитель лаборатории исследований и разработок ИИ DeepMind компании Google, говорит, что они изучают раскадровку и рассматривают возможности Veo в создании более долгих сцен. На данный момент создатели смогли добиться уже небывалого прогресса.

Veo работает на основе предварительно анонсированной в апреле модели в области создания видео. Она работала на базе Imagen 2, семейства моделей генерации изображений. Однако Veo может конкурировать с современными моделями: Sora, стартапами Pika, Rinway и другими, так как способность создавать более длинные видеоряды в качественном формате у новинки от Google имеется.

Детализация всех пловцов на пляже оказалась сложной задачей для моделей генерации изображений и видео из-за такого количества движущихся персонажей. Если присмотреться, то прибой смотрится довольно неплохо

Дуглас Эк
Research Director at Google

Google не является единственным техногигантом, который использует большие объемы данных для обучения своих моделей ИИ, но Дуглас Эк считает, что «Гугл» устанавливает «золотой стандарт».

«Решение проблемы обучающих данных будет найдено, если собрать вместе заинтересованные стороны и понять все следующие шаги, пока этого не произойдет, прогресс будет идти очень медленно»,— считает Дуглас Эк.

Veo уже стал доступен для некоторых авторов, например, для Дональда Гловера и его креативного агентства Gilga.

Если говорить о такой проблеме многих моделей генеративного ИИ как создание зеркальной копии обучающего материала, то ситуация с Вео не совсем ясна и прозрачна. Но известно, что создатели внедрили фильтры от жестокого и порнографического контента и применяют технологию SynthID для пометки видео, созданных ИИ.

Оцените генерацию изображений

Уникальные картинки невероятного качества для коммерческого использования

Техническая «внутрянка»

Модель Veo отлично распознает визуальные эффекты и движения по текстовым подсказкам, немного «шарит» в гидродинамике и гравитации, что является, своего рода, гарантией высокого качества и реалистичности получаемых видеороликов. Кроме того, модель способна создать видео из неподвижного изображения и редактировать отдельные элементы в видеоряду. Учитывая длинную череду подсказок, Вео может сгенерировать длинный видеоклип более минуты.

Как и все генеративные модели, Veo имеет минусы и особенности. Например, предметы в кадре могут вдруг появиться или исчезнуть, направление движущегося объекта без явной на то причины также может поменяться. Скорее всего, новая модель займет почетное место в списке ожидания Google Labs, где хранятся все экспериментальные решения компании.

По словам руководителя исследований Дугласа Эка, данная работа была во многом экспериментом, в ней значительное количество недоработок, но она может послужить отличным фундаментом более глобальной модели, которая перевернет мир кинематографа.