Современные большие языковые модели (LLM) демонстрируют поразительные успехи, лежа в основе интеллектуальных чат-ботов и виртуальных ассистентов. Растущий интерес к пониманию технологий, стоящих за этими мощными инструментами, вполне закономерен. Одной из ключевых инноваций, обеспечивающих эти достижения, является архитектура Mixture of Experts (MoE). В этой статье редакция журнала Gerwin постарается ответить на вопрос: или кто такие эксперты?
Архитектура Mixture of Experts (MoE) в контексте нейронных сетей и больших языковых моделей представляет собой особый подход к проектированию, при котором вычислительная нагрузка на определенном слое или операции (например, линейные слои, многослойные персептроны или проекции внимания) распределяется между несколькими «экспертными» подсетями. Эти экспертные подсети работают независимо друг от друга, выполняя собственные вычисления, результаты которых затем объединяются для получения окончательного выхода MoE-слоя.
«Экспертные» подсети по сути являются небольшими, независимыми нейронными сетями. Часто они представляют собой полносвязные сети прямого распространения (Feed-Forward Networks, FFN) или многослойные персептроны (Multi-Layer Perceptrons, MLP), которые обычно располагаются внутри блоков-трансформеров.
Важно отметить, что «экспертность» этих подсетей формируется в процессе обучения и заключается в их специфических параметрах, а не обязательно в областях знаний, понятных человеку. Хотя эксперты чаще всего являются MLP, они могут представлять собой и более сложные сети или даже другие MoE-слои, что приводит к созданию иерархических структур.
Ключевым компонентом архитектуры MoE является «вентильная сеть» (gating network), также называемая маршрутизатором (router) или контроллером (controller). Ее роль заключается в определении того, какие именно эксперты должны обрабатывать каждый поступающий фрагмент данных, обычно токен. Вентильная сеть также является нейронной сетью с обучаемыми параметрами, которая тренируется совместно с экспертами для принятия эффективных решений о маршрутизации.
Существует два основных типа архитектуры MoE:
В современных LLM, как правило, всё чаще используется разреженная MoE из-за ее эффективности. Это приводит к концепции «разреженной активации» (sparse activation), когда для обработки каждого входного сигнала активируется лишь небольшая часть от общего числа экспертов в MoE-слое, что значительно повышает вычислительную эффективность.
Например, модель может содержать сотни миллиардов параметров, но для обработки каждого входа использовать лишь их малую долю, порядка десятков миллиардов.
В отличие от традиционных «плотных» нейронных сетей, где все параметры задействуются при обработке каждого входа, разреженная активация является ключевым преимуществом MoE.
Для лучшего понимания архитектуры Mixture of Experts важно ознакомиться с некоторыми ключевыми терминами:
Термин | Комментарий |
---|---|
Разреженная активация (Sparse Activation) | Активируется лишь небольшая часть параметров модели (экспертов) для обработки каждого входа, что повышает вычислительную эффективность. |
Емкость эксперта (Expert Capacity) | Максимальное количество токенов, которое может обработать отдельный эксперт. Превышение емкости может привести к отбрасыванию токенов или их перенаправлению. |
Вентильная сеть (Gating Network/Router/Controller) | Нейронная сеть, которая решает, какие эксперты должны обрабатывать каждый входной токен. Она действует как диспетчер, направляя данные к наиболее подходящим специалистам. |
Top-k Routing | Алгоритм маршрутизации, при котором вентильная сеть выбирает 'k' экспертов с наивысшими оценками для данного входного токена и направляет токен к ним. |
Балансировка нагрузки (Load Balancing) | Равномерное распределение рабочей нагрузки (входных токенов) между всеми экспертами, чтобы предотвратить перегрузку одних и недоиспользование других. Используются различные методы для достижения баланса. |
Параллелизм экспертов (Expert Parallelism) | Возможность распределения различных экспертов MoE-модели по нескольким вычислительным устройствам (например, GPU), что обеспечивает параллельную обработку и эффективное масштабирование. |
Фактор емкости (Capacity Factor) | Параметр, определяющий максимальное количество токенов, которое может обработать эксперт. Используется для управления нагрузкой и предотвращения перегрузки экспертов. |
Expert Choice Routing | Альтернативный метод маршрутизации, при котором эксперты сами выбирают, какие входные токены они лучше всего подходят для обработки, с целью улучшения балансировки нагрузки. |
Основной принцип работы архитектуры MoE заключается в интеллектуальной маршрутизации входных токенов к наиболее подходящим экспертам с помощью вентильной сети. Этот процесс обычно включает несколько этапов.
Существуют и другие стратегии маршрутизации, такие как «expert choice routing» и «sparse routing», демонстрирующие разнообразие подходов.
Важно отметить, что если оценка эксперта равна нулю, его вычисление может быть пропущено, что дополнительно повышает эффективность.
Критически важным аспектом работы MoE является «балансировка нагрузки» (load balancing):
Использование архитектуры Mixture of Experts в больших языковых моделях дает ряд существенных преимуществ.
Одним из ключевых преимуществ является увеличенная емкость модели. MoE позволяет создавать модели с гораздо большим количеством параметров по сравнению с плотными моделями без пропорционального увеличения вычислительных затрат во время инференса. Эта возросшая емкость позволяет модели изучать и представлять более сложную информацию.
Например, Mixtral 8×7B имеет 47 миллиардов параметров, но при обработке каждого токена использует только около 13 миллиардов, что демонстрирует, как MoE увеличивает емкость без значительного увеличения вычислительной нагрузки.
MoE также способствует более быстрой тренировке и инференсу. Активируя лишь подмножество параметров, MoE-модели могут быть обучены быстрее при заданном вычислительном бюджете, а также демонстрировать меньшую задержку во время инференса по сравнению с плотными моделями сопоставимого уровня возможностей.
MoE-модели могут достигать того же уровня качества, что и их плотные аналоги, значительно быстрее в процессе предварительного обучения. Уменьшение задержки особенно важно для таких приложений, как генерация с использованием поиска (Retrieval-Augmented Generation, RAG) и автономные агенты, которые могут требовать многократных обращений к модели.
Специализация экспертов позволяет MoE-моделям лучше справляться с широким спектром задач и доменов, особенно в мультидоменных сценариях. Относительно высокая производительность Mixtral 8×7B в математике, генерации кода и многоязычных задачах служит подтверждением этого преимущества.
Масштабируемость — вы можете увеличивать количество экспертов для решения более сложных проблем без резкого увеличения вычислительных затрат на каждый вход. MoE обеспечивает «параллелизм экспертов», когда эксперты могут быть распределены по нескольким устройствам, что позволяет осуществлять крупномасштабные развертывания.
Наконец, подход MoE, основанный на принципе «разделяй и властвуй», может повысить отказоустойчивость модели. Если один эксперт сталкивается с проблемой, это не обязательно повлияет на функциональность всей модели.
Несмотря на перечисленные преимущества, архитектура MoE также имеет свои недостатки и сложности.
Новейшее семейство моделей Llama 4 от Meta*, которые также используют архитектуру Mixture of Experts и демонстрируют впечатляющие характеристики.
*Meta, в том числе ее продукты Facebook и Instagram и др. — признана экстремистской организацией и запрещена в России.
Llama 4 Scout — это модель с 17 миллиардами активных параметров и 16 экспертами, общее количество параметров составляет 109 миллиардов. Одной из ключевых особенностей является ее контекстное окно, достигающее 10 миллионов токенов, что является одним из лучших показателей среди общедоступных моделей. Благодаря своей эффективности, Llama 4 Scout может работать на одной видеокарте NVIDIA H100 при квантизации до Int4. Эта модель демонстрирует высокую производительность в задачах, связанных с обработкой длинных документов и изображений.
Llama 4 Maverick также имеет 17 миллиардов активных параметров, но использует уже 128 экспертов, а общее количество параметров достигает 400 миллиардов.
Наконец, Llama 4 Behemoth — это самая большая модель в семействе Llama 4, которая на момент анонса все еще находится в стадии обучения. Она обладает 288 миллиардами активных параметров и около 2 триллионов общих параметров, распределенных между 16 экспертами. Предварительные результаты показывают, что Llama 4 Behemoth превосходит такие модели, как GPT-4.5 и Gemini 2.0 Pro, в STEM-задачах, что говорит о ее потенциале стать одной из самых мощных доступных LLM.
GigaChat-20B MoE — многоязычная модель, разработанная российской компанией Сбер, которая использует архитектуру Mixture of Experts для баланса между производительностью и эффективностью. Модель включает 20 миллиардов активных параметров и 32 эксперта, из которых активируется 4 на токен, что обеспечивает гибкость при обработке разнородных данных.
Получайте свежие статьи, новости и вдохновение в прямом эфире, и всё это без рекламы!