Обучение нейросети
Подробнее
Журнал Gerwin
Журнал Gerwin

Архитектура MoE в больших языковых моделях — кто такие «эксперты»?

Что такое архитектура Mixture of Experts в больших языковых моделях (LLM), кто такие «эксперты», как они устроены и почему этот подход становится всё более актуальным в современных моделях
Архитектура MoE в больших языковых моделях (LLM) — кто такие «эксперты»?Архитектура MoE в больших языковых моделях (LLM) — кто такие «эксперты»?

Современные большие языковые модели (LLM) демонстрируют поразительные успехи, лежа в основе интеллектуальных чат-ботов и виртуальных ассистентов. Растущий интерес к пониманию технологий, стоящих за этими мощными инструментами, вполне закономерен. Одной из ключевых инноваций, обеспечивающих эти достижения, является архитектура Mixture of Experts (MoE). В этой статье редакция журнала Gerwin постарается ответить на вопрос: или кто такие эксперты?

Что такое архитектура Mixture of Experts (MoE)?

Архитектура Mixture of Experts (MoE) в контексте нейронных сетей и больших языковых моделей представляет собой особый подход к проектированию, при котором вычислительная нагрузка на определенном слое или операции (например, линейные слои, многослойные персептроны или проекции внимания) распределяется между несколькими «экспертными» подсетями. Эти экспертные подсети работают независимо друг от друга, выполняя собственные вычисления, результаты которых затем объединяются для получения окончательного выхода MoE-слоя.  

«Экспертные» подсети по сути являются небольшими, независимыми нейронными сетями. Часто они представляют собой полносвязные сети прямого распространения (Feed-Forward Networks, FFN) или многослойные персептроны (Multi-Layer Perceptrons, MLP), которые обычно располагаются внутри блоков-трансформеров.

Важно отметить, что «экспертность» этих подсетей формируется в процессе обучения и заключается в их специфических параметрах, а не обязательно в областях знаний, понятных человеку. Хотя эксперты чаще всего являются MLP, они могут представлять собой и более сложные сети или даже другие MoE-слои, что приводит к созданию иерархических структур.  

Ключевым компонентом архитектуры MoE является «вентильная сеть» (gating network), также называемая маршрутизатором (router) или контроллером (controller). Ее роль заключается в определении того, какие именно эксперты должны обрабатывать каждый поступающий фрагмент данных, обычно токен. Вентильная сеть также является нейронной сетью с обучаемыми параметрами, которая тренируется совместно с экспертами для принятия эффективных решений о маршрутизации.  

Существует два основных типа архитектуры MoE:

  • Плотная (dense), в которой каждый эксперт используется для обработки каждого входного сигнала;
  • Разреженная (sparse), в которой для каждого входа активируется лишь подмножество экспертов.

В современных LLM, как правило, всё чаще используется разреженная MoE из-за ее эффективности. Это приводит к концепции «разреженной активации» (sparse activation), когда для обработки каждого входного сигнала активируется лишь небольшая часть от общего числа экспертов в MoE-слое, что значительно повышает вычислительную эффективность.

Например, модель может содержать сотни миллиардов параметров, но для обработки каждого входа использовать лишь их малую долю, порядка десятков миллиардов.

В отличие от традиционных «плотных» нейронных сетей, где все параметры задействуются при обработке каждого входа, разреженная активация является ключевым преимуществом MoE.  

Словарь эксперта: ключевые термины MoE для понимания

Для лучшего понимания архитектуры Mixture of Experts важно ознакомиться с некоторыми ключевыми терминами:

ТерминКомментарий
Разреженная активация (Sparse Activation)Активируется лишь небольшая часть параметров модели (экспертов) для обработки каждого входа, что повышает вычислительную эффективность.
Емкость эксперта (Expert Capacity)Максимальное количество токенов, которое может обработать отдельный эксперт. Превышение емкости может привести к отбрасыванию токенов или их перенаправлению.
Вентильная сеть (Gating Network/Router/Controller)Нейронная сеть, которая решает, какие эксперты должны обрабатывать каждый входной токен. Она действует как диспетчер, направляя данные к наиболее подходящим специалистам.
Top-k RoutingАлгоритм маршрутизации, при котором вентильная сеть выбирает 'k' экспертов с наивысшими оценками для данного входного токена и направляет токен к ним.
Балансировка нагрузки (Load Balancing)Равномерное распределение рабочей нагрузки (входных токенов) между всеми экспертами, чтобы предотвратить перегрузку одних и недоиспользование других. Используются различные методы для достижения баланса.
Параллелизм экспертов (Expert Parallelism)Возможность распределения различных экспертов MoE-модели по нескольким вычислительным устройствам (например, GPU), что обеспечивает параллельную обработку и эффективное масштабирование.
Фактор емкости (Capacity Factor)Параметр, определяющий максимальное количество токенов, которое может обработать эксперт. Используется для управления нагрузкой и предотвращения перегрузки экспертов.
Expert Choice RoutingАльтернативный метод маршрутизации, при котором эксперты сами выбирают, какие входные токены они лучше всего подходят для обработки, с целью улучшения балансировки нагрузки.

Как работает MoE: принцип маршрутизации

Основной принцип работы архитектуры MoE заключается в интеллектуальной маршрутизации входных токенов к наиболее подходящим экспертам с помощью вентильной сети. Этот процесс обычно включает несколько этапов.

  • Сначала вентильная сеть получает на вход токен и вычисляет для каждого эксперта оценку, указывающую на его релевантность для данного токена. Этот процесс можно сравнить с менеджером, оценивающим навыки каждого члена команды, чтобы определить, кто лучше всего справится с задачей.
  • Затем, на основе этих оценок, выбирается подмножество экспертов для обработки токена. Распространенной стратегией выбора является «top-k routing», при которой выбираются «k» экспертов с наивысшими оценками. Например, в модели Mixtral 8×7B используется top-2 routing, что означает, что каждый токен обычно направляется к двум из восьми доступных экспертов.

Существуют и другие стратегии маршрутизации, такие как «expert choice routing» и «sparse routing», демонстрирующие разнообразие подходов.

  • После выбора эксперты независимо обрабатывают входной токен.
  • Затем выходы активированных экспертов объединяются для получения окончательного выхода MoE-слоя. Это объединение часто происходит с использованием взвешенного усреднения или суммирования, где веса определяются оценками вентильной сети.

Важно отметить, что если оценка эксперта равна нулю, его вычисление может быть пропущено, что дополнительно повышает эффективность.

AI-решения для бизнеса

Разработка и внедрение инструментов искусственного интеллекта

Критически важным аспектом работы MoE является «балансировка нагрузки» (load balancing):

  1. Вентильный механизм должен распределять входные токены равномерно между экспертами, чтобы избежать ситуации, когда одни эксперты перегружены, а другие недоиспользуются.
  2. Дисбаланс нагрузки может привести к тому, что некоторые эксперты станут «узким местом», а другие не будут в полной мере задействованы. Для решения этой проблемы используются различные методы, такие как добавление шума в процесс оценки или использование вспомогательных функций потерь во время обучения.
  3. Существует также понятие «емкости эксперта» (expert capacity) — максимального количества токенов, которое может обработать отдельный эксперт.
  4. Превышение этой емкости может привести к отбрасыванию токенов или их перенаправлению к следующему наиболее подходящему эксперту.

Преимущества MoE: почему это важно?

Использование архитектуры Mixture of Experts в больших языковых моделях дает ряд существенных преимуществ.

Одним из ключевых преимуществ является увеличенная емкость модели. MoE позволяет создавать модели с гораздо большим количеством параметров по сравнению с плотными моделями без пропорционального увеличения вычислительных затрат во время инференса. Эта возросшая емкость позволяет модели изучать и представлять более сложную информацию.

Например, Mixtral 8×7B имеет 47 миллиардов параметров, но при обработке каждого токена использует только около 13 миллиардов, что демонстрирует, как MoE увеличивает емкость без значительного увеличения вычислительной нагрузки.

MoE также способствует более быстрой тренировке и инференсу. Активируя лишь подмножество параметров, MoE-модели могут быть обучены быстрее при заданном вычислительном бюджете, а также демонстрировать меньшую задержку во время инференса по сравнению с плотными моделями сопоставимого уровня возможностей.

MoE-модели могут достигать того же уровня качества, что и их плотные аналоги, значительно быстрее в процессе предварительного обучения. Уменьшение задержки особенно важно для таких приложений, как генерация с использованием поиска (Retrieval-Augmented Generation, RAG) и автономные агенты, которые могут требовать многократных обращений к модели.

Специализация экспертов позволяет MoE-моделям лучше справляться с широким спектром задач и доменов, особенно в мультидоменных сценариях. Относительно высокая производительность Mixtral 8×7B в математике, генерации кода и многоязычных задачах служит подтверждением этого преимущества.

Масштабируемость — вы можете увеличивать количество экспертов для решения более сложных проблем без резкого увеличения вычислительных затрат на каждый вход. MoE обеспечивает «параллелизм экспертов», когда эксперты могут быть распределены по нескольким устройствам, что позволяет осуществлять крупномасштабные развертывания.

Наконец, подход MoE, основанный на принципе «разделяй и властвуй», может повысить отказоустойчивость модели. Если один эксперт сталкивается с проблемой, это не обязательно повлияет на функциональность всей модели.

Возьмите ИИ на работу

Прокачайте свой SMM с помощью Искусственного Интеллекта

Обратная сторона медали: недостатки и сложности MoE

Несмотря на перечисленные преимущества, архитектура MoE также имеет свои недостатки и сложности.

  1. Нестабильность обучения может быть более выраженной по сравнению с плотными моделями. Это может быть связано с дискретными решениями о маршрутизации и необходимостью балансировки нагрузки между экспертами. Небольшие изменения в весах вентильной сети могут непропорционально сильно влиять на выбор экспертов.  
  2. Обеспечение баланса нагрузки между экспертами как во время обучения, так и во время инференса является серьезной проблемой. Некоторые эксперты могут получать непропорционально большое количество входных данных, что приводит к недообучению других. Может возникнуть явление «отбрасывания токенов», когда некоторые токены не обрабатываются, если эксперт достигает своего предела емкости.  
  3. Несмотря на то, что во время инференса активна лишь часть параметров, общее количество параметров в MoE-модели обычно значительно больше, чем в плотной модели с аналогичными возможностями. Это может привести к более высоким требованиям к памяти. Даже при активации лишь части параметров все эксперты должны быть загружены в память (например, в VRAM GPU), что может представлять собой значительное требование к оборудованию.  
  4. Обучение MoE-моделей часто требует сложных стратегий распределенного обучения и тщательной координации, особенно когда эксперты распределены по нескольким устройствам. Это включает в себя такие концепции, как «параллелизм экспертов» и необходимость эффективной коммуникации между вентильной сетью и экспертами.
  5. Существует потенциал для снижения специализации (избыточность знаний), когда несколько экспертов могут изучать схожую информацию, что приводит к неэффективному использованию параметров модели. Для смягчения этой проблемы используются такие методы, как «изоляция общих экспертов» (shared expert isolation), как в DeepSeekMoE.  
  6. Наконец, хотя часто инференс в MoE-моделях быстрее, иногда могут возникать проблемы с эффективностью инференса из-за накладных расходов, связанных с работой вентильной сети и процессом выбора экспертов.  

Несколько известных больших языковых моделей используют архитектуру Mixture of Experts:

Новейшее семейство моделей Llama 4 от Meta*, которые также используют архитектуру Mixture of Experts и демонстрируют впечатляющие характеристики.

*Meta, в том числе ее продукты Facebook и Instagram и др. — признана экстремистской организацией и запрещена в России.

Llama 4 Scout — это модель с 17 миллиардами активных параметров и 16 экспертами, общее количество параметров составляет 109 миллиардов. Одной из ключевых особенностей является ее контекстное окно, достигающее 10 миллионов токенов, что является одним из лучших показателей среди общедоступных моделей. Благодаря своей эффективности, Llama 4 Scout может работать на одной видеокарте NVIDIA H100 при квантизации до Int4. Эта модель демонстрирует высокую производительность в задачах, связанных с обработкой длинных документов и изображений.  

Llama 4 Maverick также имеет 17 миллиардов активных параметров, но использует уже 128 экспертов, а общее количество параметров достигает 400 миллиардов.

Наконец, Llama 4 Behemoth — это самая большая модель в семействе Llama 4, которая на момент анонса все еще находится в стадии обучения. Она обладает 288 миллиардами активных параметров и около 2 триллионов общих параметров, распределенных между 16 экспертами. Предварительные результаты показывают, что Llama 4 Behemoth превосходит такие модели, как GPT-4.5 и Gemini 2.0 Pro, в STEM-задачах, что говорит о ее потенциале стать одной из самых мощных доступных LLM.

GigaChat-20B MoE — многоязычная модель, разработанная российской компанией Сбер, которая использует архитектуру Mixture of Experts для баланса между производительностью и эффективностью. Модель включает 20 миллиардов активных параметров и 32 эксперта, из которых активируется 4 на токен, что обеспечивает гибкость при обработке разнородных данных.

Уютный Telegram-канал журнала

Получайте свежие статьи, новости и вдохновение в прямом эфире, и всё это без рекламы!