Большие скидки
За подарками
Журнал Gerwin
Журнал Gerwin

Бенчмарк ARC-AGI: Тест на интеллект и критика экспертов

Фундаментальный разбор бенчмарка ARC-AGI: от теории априорных знаний (priors) до результатов соревнований 2025 года
Бенчмарк ARC-AGI: Тест на интеллект и критика экспертовБенчмарк ARC-AGI: Тест на интеллект и критика экспертов

Этот бенчмарк призван указывать на фундаментальное различие между накопленным навыком и подлинным интеллектом. Бенчмарк Abstraction and Reasoning Corpus (ARC-AGI), созданный Франсуа Шолле в 2019 году, стал центральной ареной для исследования этого разрыва и наиболее точным инструментом измерения прогресса на пути к сильному искусственному интеллекту (AGI).

Философия ARC-AGI: Переопределение интеллекта

Для глубокого понимания ARC-AGI необходимо обратиться к работе Франсуа Шолле «Об измерении интеллекта». Шолле утверждает, что преобладающий в индустрии подход к оценке ИИ через выполнение конкретных задач (skill-based evaluation) является в корне ошибочным. Если система обучается на миллионах примеров шахматных партий, ее успех в шахматах — это мера объема данных и вычислительной мощности, а не интеллекта.

Различие между навыком и интеллектом

В рамках методологии ARC-AGI интеллект определяется не как способность выполнять задачу, а как эффективность усвоения новых навыков в условиях высокой неопределенности.

ПараметрНавык (Skill)Интеллект (Intelligence)
ПриродаСтатический результат обучения.Динамическая способность к адаптации.
ЗависимостьПрямая зависимость от объема данных (Big Data).Зависимость от способности обобщать из минимума опыта.
ПримерDeep Blue (победа над Каспаровым через перебор).Человек, впервые видящий новую игру и понимающий правила за минуту.
МеханизмАппроксимация паттернов (интерполяция).Индукция новых правил из неочевидных примеров.

Шолле использует яркую аналогию: навык — это готовая сеть дорог. Интеллект — это компания по строительству дорог, которая может проложить путь в любом новом направлении.

Формализация интеллекта как коэффициента эффективности

Интеллект системы $\theta$ на наборе задач $T$ измеряется как скорость, с которой система превращает опыт и априорные знания в новые навыки. Математически это можно выразить через отношение прироста мастерства к затраченным ресурсам:

$$ I = \frac{\Delta Skill}{\Delta Experience + Priors} $$

Где высокий показатель интеллекта означает, что система достигает высокого уровня мастерства при минимальном объеме нового опыта. Это определение исключает возможность «покупки» результата через бесконечное масштабирование данных (scaling laws).

Архитектура бенчмарка: «Легко для людей, сложно для машин»

ARC-AGI представляет собой набор визуальных головоломок (гридов). Каждая задача состоит из 3–5 демонстрационных примеров (пары «вход-выход») и одного тестового задания.

Принципы проектирования задач

  • Минимализм данных: ИИ видит всего 2–3 примера, что заставляет использовать рассуждение вместо статистики.
  • Уникальность: Задачи в проверочном наборе уникальны, их невозможно «зазубрить».
  • Объектно-ориентированность: Решение требует выделения объектов, понимания границ, цвета и форм.
  • Пространственная логика: Вращения, отражения, масштабирование, перемещение.

Core Knowledge: Когнитивный фундамент

Бенчмарк опирается на теорию «основных знаний» (Core Knowledge) психолога Элизабет Спелке. Для решения ARC-AGI система должна обладать следующими априорными знаниями:

Когнитивный приорПроявление в задачах ARCПояснение «на пальцах»
Cohesion (Связность)Объект движется как единое целое.Если тянуть кота за хвост, движется весь кот. ИИ должен понять, что «кучка» пикселей — это предмет.
Persistence (Постоянство)Объект сохраняет форму за препятствием.Если мяч укатился под диван, он всё еще круглый.
Symmetry (Симметрия)Достройка зеркальной части фигуры.Человек интуитивно ищет баланс в изображении.
Recurrence (Повторение)Копирование паттерна в сетке.Понимание, что маленький узор может быть «плиткой» для всей поверхности.

Эволюция бенчмарка: ARC-AGI-2 и вызовы 2025 года

В марте 2025 года был представлен ARC-AGI-2 — обновленная версия с усложненной методологией.

Ключевые нововведения

  • Исключение «коротких путей»: Задачи требуют многоступенчатого рассуждения, простые симметрии больше не работают.
  • Символическая интерпретация: Цвета и формы могут выступать символами (например, красный квадрат = «повернуть сетку»).
  • Композиционное мышление: Одновременное применение 2–3 конфликтующих или дополняющих правил.
  • Метрика стоимости: Теперь результат оценивается с учетом cost efficiency. Если система решает задачу за $1000, она менее интеллектуальна, чем та, что решает её за $0.20.

Состояние индустрии: OpenAI, NVIDIA и ARC Prize 2025

2025 год принес сенсационные результаты. Методы «рассуждения во время вывода» (inference-time reasoning) изменили правила игры.

Прорыв OpenAI: Модель o3

В конце 2024 года OpenAI представила модель o3, которая на скрытом наборе ARC-AGI-1 показала результат 87.5%, формально достигнув человеческого уровня.

Режим работы o3Точность (ARC-AGI-1)Стоимость за задачуОценка Франсуа Шолле
Standard Compute75.7%Умеренная«Качественный скачок, приближение к человеческой адаптации».
High Compute87.5%Очень высокая ($15.72)«Демонстрирует мощь поиска, но всё еще не является AGI».

Триумф NVIDIA: Система NVARC

На открытом соревновании Kaggle ARC Prize 2025 первое место заняла команда NVARC (NVIDIA Kaggle Grandmasters).

  • Результат: 24.03% на сложном ARC-AGI-2.
  • Стоимость: Всего $0.20 за задачу.

Секрет успеха NVARC:

  • Использование синтетических данных (266 000 новых задач).
  • Test-Time Training (TTT): Модель «учится» прямо в процессе теста.
  • Ансамбль малых специализированных моделей вместо одной гигантской.

Сравнение ведущих систем 2025 года

СистемаАвторТип системыARC-AGI-2 ScoreСтоимость
GPT-5.2 ProOpenAICoT (рассуждения)54.2%$15.72
Gemini 3 ProGoogleRefinement54.0%$30.57
Opus 4.5AnthropicCoT37.6%$2.40
NVARCNVIDIACustom / TTT27.6%$0.20
TRM (7M params)IndependentRecursive NN6.3%$2.10

Данные показывают: закрытые модели лидируют по точности, но открытые решения (NVARC) на порядки эффективнее экономически.

Взгляд экспертов

Ян Лекун: Критика «языкового тупика»

Лекун (Meta) считает, что текст — бедная среда для интеллекта. Успех в ARC через генерацию кода он называет «трюком». Настоящий путь — это архитектуры JEPA, обучающиеся на видео и понимающие физику мира.

Андрей Карпати: Проблема «шлака» (Slop)

Карпати ввел термин «slop» для описания текущих агентов. По его мнению, ARC подсвечивает «когнитивный дефицит» моделей: они великолепны в автодополнении, но рассыпаются при планировании в нестандартных ситуациях.

Игорь Котенков: Прагматизм и MDL

Автор с своем канале «Сиолошная» в отмечает, что ARC превратился в тест программного синтеза. Успех o3 — это успех алгоритмов поиска, обернутых вокруг нейросети. Важен принцип MDL (Минимальная длина описания): лучшее решение — это самая простая программа.

Текущий ландшафт методов решения

МетодСуть «на пальцах»ПлюсыМинусы
Pure Deep LearningПростое предсказание картинки.Быстро.Почти не работает (<5%).
Program SynthesisИИ пишет код на Python для решения.Высокая точность.Огромные вычисления.
Neuro-SymbolicНейросеть видит объекты, логика их двигает.Самый «человечный».Сложно реализовать.
TTT (Test-Time Training)Дообучение модели во время теста.Эффективность.Риск переобучения.

Итоговая сравнительная таблица результатов на ARC-AGI-2

Модель/СистемаОрганизация / АвторScore ARC-AGI-2Метод / АрхитектураСтоимость (USD/задача)Ключевые принципы познания
GPT-5.2 (Thinking)OpenAI52.9%Глубокая цепь рассуждений (Deep Thinking), гибридная архитектура с роутингом$1.90Абстрактное рассуждение, планирование, многоэтапная логика
GPT-5.2 Pro (X-High)OpenAI54.2%Максимальный бюджет вычислений (test-time compute), X-High режим$15.27Усиленное абстрактное обобщение, агентные возможности
Poetiq (Meta-system)Poetiq AI54.0%Мета-оркестровка (генерация, критика, уточнение) нескольких LLM$30.57Мета-рассуждение, итеративное уточнение, оркестровка агентов
Gemini 3 "Deep Think"Google45.0%Глубокое рассуждение (Deep Think), адаптивный вывод~$77.00Способность к решению сложных задач, обработка длинного контекста
NVARC (Kaggle team)NVIDIA27.64%Синтетические данные + дообучение модели 4B параметров во время теста$0.20Адаптивность, обучение на лету (test-time training), синтетический корпус
Человек (Human Panel)Франсуа Шолле100%Естественный интеллектОбъектная когезия, агентность, врожденные априори, гибкий интеллект
GPT-5.1OpenAI17.6%Трансформерная LLMСтатическое предсказание токена, ограниченное обобщение
GPT-4o / GPT-4OpenAI0%Статическое обучение (пре-трейнинг)Запоминание навыков, отсутствие адаптации во время теста
NVARCI. Sorokin & J-F. Puget (NVIDIA)24.03%Ансамбль малых моделей (4B), синтетика, обучение во время теста (TTT)$0.20Объектность, пространственная логика, адаптация через TTT
the ARChitectsthe ARChitects16.53%2D-aware masked-diffusion LLM, рекурсивное самосовершенствование$0.20Объектная когезия, рекурсивное рассуждение
MindsAIJack Cole (MindsAI)12.64% (до 15.42%)Конвейер обучения во время теста (TTT), аугментационные ансамбли$0.20Адаптация на лету, активный вывод
GPT-5.2 Pro (High)OpenAI54.2%Цепочка рассуждений (CoT), программный синтез$15.72Символическая интерпретация, композиционное мышление
Gemini 3 Pro (Refinement)Poetiq / Google54.0%Циклы уточнения (refinement loops) на базе Gemini 3 Pro$30.57Эффективность усвоения навыков через обратную связь
Opus 4.5 (Thinking)Anthropic37.6%Коммерческая система рассуждений (CoT)$2.20Абстрактное рассуждение, планирование
Tiny Recursive Model (TRM)A. Jolicoeur-Martineau8.0%Рекурсивная нейросеть (7M параметров), глубокое уточнение$2.10Принцип минимальной длины описания (MDL), объектность
CompressARCI. Liao & A. Gu4.0%Нейронный «код-гольф» на основе MDL, без предобученияАлгоритмическая сложность, сжатие как интеллект
Человек (средний)Исследование NYU / ARC85% (порог AGI)Биологический интеллектОбъектная когезия, агентность, причинно-следственная связь

Заключение: Почему ARC-AGI может быть важнее всех остальных тестов?

ARC-AGI остается единственным «честным» экзаменом в мире, наводненном тестами на эрудицию. Он спрашивает ИИ не о том, что тот знает, а о том, как тот думает.

  1. Интеллект — это эффективность. Мы должны перестать измерять успех терабайтами данных.
  2. Core Knowledge обязателен. Без базовых представлений об объектах модели останутся статистическими попугаями.
  3. ARC Prize демократизирует AGI. Прорывы возможны не только в закрытых лабораториях, но и в эффективных малых моделях.

Настоящий AGI родится не тогда, когда компьютер выучит весь интернет, а тогда, когда он решит ARC-задачу так же легко и дешево, как это делает человек.


Источники: 1 Kevin Lacker, 2 ARC Prize, 4 Robert Tjarko Lange, 16 ARC-AGI-2, 19 Matthew Griffin, 22 NVIDIA Blog, 32 Telegram-канал «Сиолошная».

AI-решения для бизнеса

Разработка и внедрение инструментов искусственного интеллекта