Обучение нейросети
Подробнее
Журнал Gerwin
Журнал Gerwin

Llama 4 — Scout, Maverick и Behemoth

Первыми стали доступны для использования Llama 4 Scout и Llama 4 Maverick — новые открытые мультимодальные модели, разработанные на базе архитектуры Mixture-of-Experts (MoE)
Llama 4 — Scout, Maverick и BehemothLlama 4 — Scout, Maverick и Behemoth

*Meta, в том числе ее продукты Facebook и Instagram и др. — признана экстремистской организацией и запрещена в России.

В этот раз Meta AI анонсировала сразу несколько моделей в рамках семейства Llama 4. Первыми стали доступны для использования Llama 4 Scout и Llama 4 Maverick — передовые открытые мультимодальные модели, разработанные на базе архитектуры Mixture-of-Experts (MoE). Кроме того, компания поделилась информацией о разработке еще более мощной модели — Llama 4 Behemoth, которая в настоящее время находится на стадии обучения.  

Новые модели Llama 4 отличаются рядом ключевых улучшений, включая значительный прирост производительности, способность обрабатывать беспрецедентно длинные последовательности текста и изображений, а также расширенные мультимодальные возможности. Этот релиз вызывает большой интерес в индустрии, поскольку многие эксперты видят в нем знаковое событие, способное существенно повлиять на дальнейшее развитие искусственного интеллекта.

Сравнительная таблица характеристик Llama 4: Scout, Maverick и Behemoth

ХарактеристикаLlama 4 ScoutLlama 4 MaverickLlama 4 Behemoth
Активные параметры17 миллиардов17 миллиардов288 миллиардов
Общие параметры109 миллиардов400 миллиардов~2 триллиона
Количество экспертов1612816
АрхитектураMoEMoEMoE
МультимодальностьНативнаяНативнаяНативная
Макс. длина контекста10 миллионов токенов--
ПроизводительностьЛучшая в своем классеПревосходит GPT-4o, Gemini 2.0 FlashПревосходит GPT-4.5, Claude Sonnet 3.7, Gemini 2.0 Pro (STEM)
СтатусВыпущенаВыпущенаВ стадии обучения
Доступностьllama.com, Hugging Facellama.com, Hugging Face-

Стратегический акцент Meta на моделях с открытым исходным кодом демонстрирует веру компании в силу коллективной инновации в сообществе разработчиков ИИ. Такой подход может привести к более быстрому распространению технологии и созданию широкого спектра приложений по сравнению с моделями, разработанными с закрытым исходным кодом. Предоставляя доступ к своим моделям, Meta стимулирует эксперименты и разработки, что потенциально способствует формированию более динамичной экосистемы вокруг Llama 4.  

Одновременное объявление о выпуске моделей Scout и Maverick и анонс более мощной модели Behemoth, находящейся в разработке, свидетельствует о поэтапной стратегии вывода продуктов на рынок. Это позволяет разработчикам начать работу с уже доступными технологиями, одновременно подогревая интерес к будущим достижениям. Раннее упоминание Behemoth, несмотря на то, что модель еще не завершила обучение, выполняет несколько задач. Оно дает представление о будущих возможностях Meta в области ИИ, объясняет основу для разработки текущих моделей (через дистилляцию знаний) и поддерживает интерес к семейству Llama 4 на протяжении более длительного периода времени.

Llama 4 Scout: Проворный исследователь с обширной памятью

Llama 4 Scout представляет собой модель с 17 миллиардами активных параметров и 109 миллиардами общих параметров, распределенных между 16 экспертами. В основе модели лежит архитектура Mixture-of-Experts (MoE), которая позволяет повысить эффективность как обучения, так и использования модели.  

Одной из ключевых особенностей Llama 4 Scout является поддержка мультимодальности, что позволяет модели понимать и обрабатывать как текстовую, так и визуальную информацию. Интеграция различных типов данных осуществляется с помощью метода «раннего слияния» (early fusion), когда текстовые и визуальные токены объединяются на ранних этапах обработки.  

Особого внимания заслуживает контекстное окно Llama 4 Scout, размер которого достигает 10 миллионов токенов. Это один из самых больших показателей в индустрии на сегодняшний день. Такой объем контекста открывает новые возможности для решения задач, требующих обработки больших объемов информации, таких как суммаризация обширных кодовых баз, анализ больших массивов пользовательских данных, работа с объемными документами и многодокументный анализ.  

Производительность Llama 4 Scout была протестирована в сравнении с другими моделями своего класса, включая Gemma 3, Gemini 2.0 Flash-Lite и Mistral 3.1, на различных бенчмарках. Результаты показали, что Llama 4 Scout превосходит их по ряду ключевых показателей, что делает ее одной из лучших моделей в своей категории.  

Еще одним важным преимуществом Llama 4 Scout является возможность ее работы на одной видеокарте NVIDIA H100 при использовании квантизации до INT4. Это делает модель более доступной для широкого круга пользователей, включая исследователей и разработчиков с ограниченными вычислительными ресурсами.  

Исключительно большой размер контекстного окна Llama 4 Scout (10 миллионов токенов) знаменует собой значительный сдвиг в возможностях языковых моделей. Это может кардинально изменить подходы к задачам, требующим обработки огромных объемов информации, потенциально приводя к прорывам в таких областях, как анализ юридической документации, научные исследования и разработка программного обеспечения. Предыдущие ограничения, связанные с размером контекстного окна, не позволяли моделям в полной мере понимать и рассуждать на основе очень длинных входных данных. Окно в 10 миллионов токенов снимает этот барьер, позволяя модели сохранять и обрабатывать информацию из целых книг, обширных репозиториев кода или многолетних исследовательских данных. Это открывает совершенно новые возможности для приложений, которые ранее были практически нереализуемы.  

Сравнение производительности Llama 4 Scout с такими конкретными моделями, как Gemma 3, Gemini 2.0 Flash-Lite и Mistral 3.1, демонстрирует стремление Meta к проведению объективного тестирования и обеспечению прозрачности. Предоставляя прямые сравнения, компания позволяет пользователям принимать обоснованные решения о том, какая модель лучше всего соответствует их потребностям. Вместо того чтобы просто заявлять о превосходной производительности, Meta подкрепляет свои слова конкретными сравнениями с хорошо известными моделями. Это повышает доверие и предоставляет ценную информацию для потенциальных пользователей, которые знакомы с возможностями сравниваемых моделей.

Аккаунт Gerwin PRO

Безусловная скидка 40% на пополнение баланса и доступ к полному функционалу сервиса

Llama 4 Maverick: Высокопроизводительная рабочая лошадка для сложных задач

Llama 4 Maverick представляет собой еще одну модель нового поколения от Meta AI, обладающую 17 миллиардами активных параметров и 400 миллиардами общих параметров, распределенных между 128 экспертами. Большее количество экспертов по сравнению с моделью Scout способствует более высокой производительности при решении сложных задач.  

Одной из ключевых особенностей Llama 4 Maverick является улучшенное визуальное заземление (visual grounding), которое позволяет модели точно сопоставлять текстовые запросы с соответствующими визуальными элементами. Эта способность особенно важна для задач, требующих мультимодального рассуждения, где необходимо понимать взаимосвязь между текстом и изображениями.  

Благодаря своим возможностям, Llama 4 Maverick может эффективно применяться в областях, требующих продвинутого логического вывода и написания кода. Модель позиционируется как инструмент для решения более сложных и масштабных задач.  

Производительность Llama 4 Maverick была сравнена с моделями более высокого класса, такими как GPT-4o и Gemini 2.0 Flash, на различных бенчмарках. Результаты показали, что Maverick превосходит их по ряду показателей. При этом модель демонстрирует сопоставимые результаты с DeepSeek V3 в задачах рассуждения и кодирования, обладая значительно меньшим количеством активных параметров.  

Экспериментальная чат-версия Llama 4 Maverick достигла рейтинга ELO 1417 на платформе LMArena, что свидетельствует о высокой эффективности модели в диалоговых сценариях и ее способности генерировать качественные ответы.  

Llama 4 Maverick может работать на одном сервере с NVIDIA H100 или масштабироваться для распределенного вывода, что обеспечивает разработчикам необходимую гибкость при интеграции модели в различные приложения и системы.  

Способность Llama 4 Maverick превосходить GPT-4o и Gemini 2.0 Flash по ряду бенчмарков при меньшем количестве активных параметров, чем у DeepSeek V3, подчеркивает значительный прогресс в области эффективности. Это говорит о том, что Meta добилась существенных успехов в оптимизации архитектуры модели и методологий обучения. Достижение сопоставимой или даже лучшей производительности при меньшем количестве активных параметров означает снижение вычислительных затрат на вывод. Это является ключевым фактором для более широкого распространения, поскольку делает мощные модели ИИ более доступными для большего числа пользователей и организаций с различными возможностями инфраструктуры.  

Акцент на «визуальном заземлении» в Llama 4 Maverick указывает на сильную ориентацию на улучшение способности модели понимать и взаимодействовать с визуальной информацией. Это предполагает потенциальные приложения в таких областях, как описание изображений, ответы на вопросы по изображениям и создание мультимодального контента. Визуальное заземление имеет важное значение для по-настоящему интеллектуального мультимодального ИИ. Оно позволяет модели связывать текстовые описания с конкретными областями или объектами внутри изображения, что приводит к более точным и контекстуально релевантным ответам в задачах, включающих как визуальные, так и текстовые входные данные.

Llama 4 Behemoth: Невидимый титан, формирующий будущее

Llama 4 Behemoth — это пока не выпущенная, но уже вызывающая большой интерес модель с 288 миллиардами активных параметров и почти двумя триллионами общих параметров. Она позиционируется как самая мощная модель Meta AI на данный момент и одна из самых интеллектуальных в мире.  

**Модель демонстрирует превосходную производительность на STEM-бенчмарках, таких как MATH-500 и GPQA Diamond, превосходя GPT-4.5, Claude Sonnet 3.7 и Gemini 2.0 Pro. ** 

Важно отметить, что Llama 4 Behemoth играет ключевую роль в обучении моделей Scout и Maverick, выступая в качестве так называемой «обучающей модели» (teacher model) в процессе кодистилляции. В этом процессе используются инновационная функция потерь при дистилляции и стратегии динамического выбора данных.  

На данный момент модель Llama 4 Behemoth все еще находится на стадии обучения, но уже демонстрирует впечатляющие результаты, что позволяет ожидать ее скорый выход и потенциальное влияние на индустрию.  

Тот факт, что Llama 4 Behemoth, даже находясь на стадии обучения, уже превосходит передовые модели, такие как GPT-4.5, на STEM-бенчмарках, свидетельствует о значительном скачке в фундаментальных возможностях ИИ. Это может иметь глубокие последствия для научных исследований и других областей, требующих продвинутого логического мышления. Производительность на STEM-бенчмарках часто считается сильным индикатором способности модели справляться со сложными задачами рассуждения и решения проблем. Ранний успех Behemoth в этих областях указывает на потенциально преобразующее влияние на приложения, которые полагаются на сложные аналитические навыки.  

Использование Llama 4 Behemoth в качестве «обучающей модели» для Scout и Maverick посредством кодистилляции демонстрирует стратегический подход к разработке моделей. Обучив сначала очень большую и способную модель, Meta может затем передать ее знания и возможности меньшим, более эффективным моделям, улучшая их производительность и снижая затраты на обучение. Дистилляция является хорошо зарекомендовавшим себя методом в машинном обучении, но масштаб и сообщаемые улучшения качества, достигнутые с помощью кодистилляции с Behemoth, подчеркивают его эффективность в данном случае. Это позволяет Meta предлагать высокопроизводительные модели для различных ресурсных ограничений.

ai.meta.com
ai.meta.com
*Meta, в том числе ее продукты Facebook и Instagram и др. — признана экстремистской организацией и запрещена в России.

Мультимодальное мастерство: Видеть и понимать мир

Llama 4 Scout и Llama 4 Maverick обладают развитыми нативными мультимодальными возможностями. Концепция «раннего слияния» (early fusion) предполагает интеграцию текстовых и визуальных токенов на самых ранних этапах обработки.  

В Llama 4 был улучшен визуальный энкодер, который основан на архитектуре MetaCLIP, но обучался отдельно для лучшей адаптации к большой языковой модели. Обучение проводилось на огромных объемах неразмеченных данных, включающих изображения и видео.  

Модель Scout способна обрабатывать до 48 изображений на этапе предварительного обучения и демонстрирует хорошие результаты при работе с 8 изображениями на этапе постобработки.  

Maverick отличается высокой точностью визуального заземления, что крайне важно для задач, требующих глубокого понимания связей между текстом и изображениями.  

Акцент на «нативной мультимодальности» с «ранним слиянием» предполагает более глубокую интеграцию визуальной и текстовой информации в архитектуре Llama 4 по сравнению с предыдущими подходами, где эти модальности могли обрабатываться более раздельно. Это может привести к более целостному пониманию мира моделями. Раннее слияние позволяет модели изучать кросс-модальные связи с самого начала конвейера обработки. Это может привести к более тонкому пониманию того, как текст и изображения соотносятся друг с другом, что потенциально улучшит производительность в задачах, требующих рассуждения по обеим модальностям.  

Отдельное обучение визуального энкодера на основе MetaCLIP указывает на стремление оптимизировать возможности визуального восприятия Llama 4. Адаптируя проверенную модель визуального восприятия специально для интеграции с большой языковой моделью, Meta, вероятно, стремится к достижению передовой производительности в задачах, связанных с обработкой изображений. MetaCLIP известна своей высокой производительностью в области понимания изображений. Используя ее архитектуру и затем тонко настраивая ее для моделей Llama 4, Meta опирается на существующий опыт для создания надежной мультимодальной системы.  

Возьмите ИИ на работу

Прокачайте свой SMM с помощью Искусственного Интеллекта

Технологический скачок: Инновации в Llama 4

В Llama 4 реализован ряд ключевых архитектурных улучшений. Одним из них является архитектура Mixture-of-Experts (MoE), которая позволяет активировать лишь часть параметров модели для обработки каждого токена, что значительно повышает эффективность обучения и вывода.  

Еще одной важной инновацией является использование перемежающихся слоев внимания (interleaved attention layers) без позиционных вложений (positional embeddings), получивших название iRoPE. Эта архитектура играет ключевую роль в достижении контекстного окна размером 10 миллионов токенов у модели Scout. Кроме того, для улучшения обобщения на длинных последовательностях применяется температурное масштабирование внимания во время вывода.  

Значительно увеличена и длина контекста, особенно у модели Scout, которая выросла с 128K в Llama 3 до 10M в Llama 4.  

Достигнуты успехи и в методах обучения. Meta AI разработала новую технику под названием MetaP, которая обеспечивает надежную настройку критически важных гиперпараметров модели, таких как скорость обучения на каждом слое и масштабы инициализации. Эти гиперпараметры хорошо переносятся на различные размеры пакетов, ширину и глубину модели, а также на количество обучающих токенов. Эффективное обучение модели также достигается за счет использования FP8 точности без потери качества. Общий объем данных, использованных для обучения, превысил 30 триллионов токенов, что более чем вдвое превышает объем данных, использованных для обучения Llama 3.  

Усовершенствован и конвейер постобработки, который теперь включает последовательность легкой контролируемой тонкой настройки (SFT), онлайн-обучения с подкреплением (RL) и легкой прямой оптимизации предпочтений (DPO). Важным улучшением стало удаление более 50% «легких» данных во время SFT, что позволило сосредоточиться на более сложных запросах и улучшить способности модели к рассуждению, кодированию и решению математических задач.  

Применение архитектуры Mixture-of-Experts (MoE) является значительным архитектурным сдвигом для серии Llama. Это указывает на переход к более эффективным и масштабируемым моделям, которые могут достигать более высокой производительности при заданном объеме вычислительных ресурсов. MoE позволяет увеличить общую емкость модели, активируя при этом лишь небольшую часть параметров для каждого входного сигнала. Это приводит к более быстрому выводу и потенциально к снижению требований к памяти по сравнению с плотными моделями аналогичного размера.  

Разработка архитектуры iRoPE специально для обработки чрезвычайно длинных контекстных окон демонстрирует целенаправленную инновацию для устранения ключевого ограничения предыдущих языковых моделей. Это подчеркивает стремление Meta расширить границы возможного с точки зрения длины контекста. Традиционные позиционные вложения могут испытывать трудности при работе с очень длинными последовательностями. iRoPE, вероятно, использует более сложный метод кодирования позиционной информации, который позволяет модели эффективно обрабатывать информацию и обращать на нее внимание на гораздо большем участке текста.

Влияние и дальнейший путь

Выпуск Llama 4 окажет значительное влияние на индустрию искусственного интеллекта, предоставив разработчикам и исследователям более мощные и эффективные инструменты. Это откроет новые возможности для создания более персонализированных мультимодальных приложений.  

Meta AI продолжает придерживаться принципов открытого исходного кода и обеспечивает доступность моделей через llama.com и Hugging Face. Компания также планирует расширить доступ к моделям через облачных провайдеров и партнеров в ближайшие дни.  

На 29 апреля запланирована конференция LlamaCon, где Meta планирует поделиться дополнительной информацией о будущем платформы Llama.  

Модели Llama 4 уже используются в продуктах Meta AI, таких как WhatsApp, Messenger, Instagram Direct и веб-сайт Meta AI.  

Неизменная приверженность Meta к разработке ИИ с открытым исходным кодом имеет существенные последствия для более широкой экосистемы ИИ. Предоставляя эти передовые модели в открытый доступ, компания демократизирует доступ к новейшим технологиям и стимулирует инновации в различных секторах. Релизы с открытым исходным кодом способствуют сотрудничеству, быстрой итерации и разработке более широкого спектра приложений, чем это было бы возможно с проприетарными моделями. Это может ускорить общий прогресс исследований в области ИИ и его практического применения.  

AI-решения для бизнеса

Разработка и внедрение инструментов искусственного интеллекта