Veo — генерация видео от Google: что известно после анонса

На конференции разработчиков Google I/O 2024, которая прошла во вторник, была представлена модель ИИ — Veo. Она может создавать видеоклипы на основе текстовой подсказки.Модель Veo способна создавать видеоролики продолжительностью до минуты с разрешением 1080p, учитывая контекст, считывая визуальные и кинематографические стили, понимая снимки пейзажей и замедленную съемку. Кроме того, модель может внести изменения в уже созданные кадры.

Демис Хассабис, руководитель лаборатории исследований и разработок ИИ DeepMind компании Google, говорит, что они изучают раскадровку и рассматривают возможности Veo в создании более долгих сцен. На данный момент создатели смогли добиться уже небывалого прогресса.

Veo работает на основе предварительно анонсированной в апреле модели в области создания видео. Она работала на базе Imagen 2, семейства моделей генерации изображений. Однако Veo может конкурировать с современными моделями: Sora, стартапами Pika, Rinway и другими, так как способность создавать более длинные видеоряды в качественном формате у новинки от Google имеется.

Детализация всех пловцов на пляже оказалась сложной задачей для моделей генерации изображений и видео из-за такого количества движущихся персонажей. Если присмотреться, то прибой смотрится довольно неплохо
Дуглас Эк
Research Director at Google
Дуглас Эк

Google не является единственным техногигантом, который использует большие объемы данных для обучения своих моделей ИИ, но Дуглас Эк считает, что «Гугл» устанавливает «золотой стандарт».

«Решение проблемы обучающих данных будет найдено, если собрать вместе заинтересованные стороны и понять все следующие шаги, пока этого не произойдет, прогресс будет идти очень медленно»,— считает Дуглас Эк.

Veo уже стал доступен для некоторых авторов, например, для Дональда Гловера и его креативного агентства Gilga.

Если говорить о такой проблеме многих моделей генеративного ИИ как создание зеркальной копии обучающего материала, то ситуация с Вео не совсем ясна и прозрачна. Но известно, что создатели внедрили фильтры от жестокого и порнографического контента и применяют технологию SynthID для пометки видео, созданных ИИ.

Оцените генерацию изображений

Регистрация

Уникальные картинки невероятного качества для коммерческого использования

Техническая «внутрянка»

Модель Veo отлично распознает визуальные эффекты и движения по текстовым подсказкам, немного «шарит» в гидродинамике и гравитации, что является, своего рода, гарантией высокого качества и реалистичности получаемых видеороликов. Кроме того, модель способна создать видео из неподвижного изображения и редактировать отдельные элементы в видеоряду. Учитывая длинную череду подсказок, Вео может сгенерировать длинный видеоклип более минуты.

Как и все генеративные модели, Veo имеет минусы и особенности. Например, предметы в кадре могут вдруг появиться или исчезнуть, направление движущегося объекта без явной на то причины также может поменяться. Скорее всего, новая модель займет почетное место в списке ожидания Google Labs, где хранятся все экспериментальные решения компании.

По словам руководителя исследований Дугласа Эка, данная работа была во многом экспериментом, в ней значительное количество недоработок, но она может послужить отличным фундаментом более глобальной модели, которая перевернет мир кинематографа.

Читайте также

25 декабря 2025 г.

Veo — генерация видео от Google: что известно после анонса

Техническая «внутрянка»

Читайте также

Бенчмарк ARC-AGI: Тест на интеллект и критика экспертов

Татарский язык для GPT-3: файнтюнинг DaVinci. История из эпохи «до ChatGPT»

Хабр отмечает 19 лет

Kimi Agentic Slides - нейросеть для презентаций с NanoBanana

Local Talent: Реальные зарплаты в IT

Как запустить пет-проект: Продакт-менеджер, 3D принтер и маркетплейсы