Этот бенчмарк призван указывать на фундаментальное различие между накопленным навыком и подлинным интеллектом. Бенчмарк Abstraction and Reasoning Corpus (ARC-AGI), созданный Франсуа Шолле в 2019 году, стал центральной ареной для исследования этого разрыва и наиболее точным инструментом измерения прогресса на пути к сильному искусственному интеллекту (AGI).
Для глубокого понимания ARC-AGI необходимо обратиться к работе Франсуа Шолле «Об измерении интеллекта». Шолле утверждает, что преобладающий в индустрии подход к оценке ИИ через выполнение конкретных задач (skill-based evaluation) является в корне ошибочным. Если система обучается на миллионах примеров шахматных партий, ее успех в шахматах — это мера объема данных и вычислительной мощности, а не интеллекта.
В рамках методологии ARC-AGI интеллект определяется не как способность выполнять задачу, а как эффективность усвоения новых навыков в условиях высокой неопределенности.
| Параметр | Навык (Skill) | Интеллект (Intelligence) |
|---|---|---|
| Природа | Статический результат обучения. | Динамическая способность к адаптации. |
| Зависимость | Прямая зависимость от объема данных (Big Data). | Зависимость от способности обобщать из минимума опыта. |
| Пример | Deep Blue (победа над Каспаровым через перебор). | Человек, впервые видящий новую игру и понимающий правила за минуту. |
| Механизм | Аппроксимация паттернов (интерполяция). | Индукция новых правил из неочевидных примеров. |
Шолле использует яркую аналогию: навык — это готовая сеть дорог. Интеллект — это компания по строительству дорог, которая может проложить путь в любом новом направлении.
Интеллект системы $\theta$ на наборе задач $T$ измеряется как скорость, с которой система превращает опыт и априорные знания в новые навыки. Математически это можно выразить через отношение прироста мастерства к затраченным ресурсам:
$$ I = \frac{\Delta Skill}{\Delta Experience + Priors} $$
Где высокий показатель интеллекта означает, что система достигает высокого уровня мастерства при минимальном объеме нового опыта. Это определение исключает возможность «покупки» результата через бесконечное масштабирование данных (scaling laws).
ARC-AGI представляет собой набор визуальных головоломок (гридов). Каждая задача состоит из 3–5 демонстрационных примеров (пары «вход-выход») и одного тестового задания.
Бенчмарк опирается на теорию «основных знаний» (Core Knowledge) психолога Элизабет Спелке. Для решения ARC-AGI система должна обладать следующими априорными знаниями:
| Когнитивный приор | Проявление в задачах ARC | Пояснение «на пальцах» |
|---|---|---|
| Cohesion (Связность) | Объект движется как единое целое. | Если тянуть кота за хвост, движется весь кот. ИИ должен понять, что «кучка» пикселей — это предмет. |
| Persistence (Постоянство) | Объект сохраняет форму за препятствием. | Если мяч укатился под диван, он всё еще круглый. |
| Symmetry (Симметрия) | Достройка зеркальной части фигуры. | Человек интуитивно ищет баланс в изображении. |
| Recurrence (Повторение) | Копирование паттерна в сетке. | Понимание, что маленький узор может быть «плиткой» для всей поверхности. |
В марте 2025 года был представлен ARC-AGI-2 — обновленная версия с усложненной методологией.
2025 год принес сенсационные результаты. Методы «рассуждения во время вывода» (inference-time reasoning) изменили правила игры.
В конце 2024 года OpenAI представила модель o3, которая на скрытом наборе ARC-AGI-1 показала результат 87.5%, формально достигнув человеческого уровня.
| Режим работы o3 | Точность (ARC-AGI-1) | Стоимость за задачу | Оценка Франсуа Шолле |
|---|---|---|---|
| Standard Compute | 75.7% | Умеренная | «Качественный скачок, приближение к человеческой адаптации». |
| High Compute | 87.5% | Очень высокая ($15.72) | «Демонстрирует мощь поиска, но всё еще не является AGI». |
На открытом соревновании Kaggle ARC Prize 2025 первое место заняла команда NVARC (NVIDIA Kaggle Grandmasters).
Секрет успеха NVARC:
| Система | Автор | Тип системы | ARC-AGI-2 Score | Стоимость |
|---|---|---|---|---|
| GPT-5.2 Pro | OpenAI | CoT (рассуждения) | 54.2% | $15.72 |
| Gemini 3 Pro | Refinement | 54.0% | $30.57 | |
| Opus 4.5 | Anthropic | CoT | 37.6% | $2.40 |
| NVARC | NVIDIA | Custom / TTT | 27.6% | $0.20 |
| TRM (7M params) | Independent | Recursive NN | 6.3% | $2.10 |
Данные показывают: закрытые модели лидируют по точности, но открытые решения (NVARC) на порядки эффективнее экономически.
Лекун (Meta) считает, что текст — бедная среда для интеллекта. Успех в ARC через генерацию кода он называет «трюком». Настоящий путь — это архитектуры JEPA, обучающиеся на видео и понимающие физику мира.
Карпати ввел термин «slop» для описания текущих агентов. По его мнению, ARC подсвечивает «когнитивный дефицит» моделей: они великолепны в автодополнении, но рассыпаются при планировании в нестандартных ситуациях.
Автор с своем канале «Сиолошная» в отмечает, что ARC превратился в тест программного синтеза. Успех o3 — это успех алгоритмов поиска, обернутых вокруг нейросети. Важен принцип MDL (Минимальная длина описания): лучшее решение — это самая простая программа.
| Метод | Суть «на пальцах» | Плюсы | Минусы |
|---|---|---|---|
| Pure Deep Learning | Простое предсказание картинки. | Быстро. | Почти не работает (<5%). |
| Program Synthesis | ИИ пишет код на Python для решения. | Высокая точность. | Огромные вычисления. |
| Neuro-Symbolic | Нейросеть видит объекты, логика их двигает. | Самый «человечный». | Сложно реализовать. |
| TTT (Test-Time Training) | Дообучение модели во время теста. | Эффективность. | Риск переобучения. |
| Модель/Система | Организация / Автор | Score ARC-AGI-2 | Метод / Архитектура | Стоимость (USD/задача) | Ключевые принципы познания |
|---|---|---|---|---|---|
| GPT-5.2 (Thinking) | OpenAI | 52.9% | Глубокая цепь рассуждений (Deep Thinking), гибридная архитектура с роутингом | $1.90 | Абстрактное рассуждение, планирование, многоэтапная логика |
| GPT-5.2 Pro (X-High) | OpenAI | 54.2% | Максимальный бюджет вычислений (test-time compute), X-High режим | $15.27 | Усиленное абстрактное обобщение, агентные возможности |
| Poetiq (Meta-system) | Poetiq AI | 54.0% | Мета-оркестровка (генерация, критика, уточнение) нескольких LLM | $30.57 | Мета-рассуждение, итеративное уточнение, оркестровка агентов |
| Gemini 3 "Deep Think" | 45.0% | Глубокое рассуждение (Deep Think), адаптивный вывод | ~$77.00 | Способность к решению сложных задач, обработка длинного контекста | |
| NVARC (Kaggle team) | NVIDIA | 27.64% | Синтетические данные + дообучение модели 4B параметров во время теста | $0.20 | Адаптивность, обучение на лету (test-time training), синтетический корпус |
| Человек (Human Panel) | Франсуа Шолле | 100% | Естественный интеллект | — | Объектная когезия, агентность, врожденные априори, гибкий интеллект |
| GPT-5.1 | OpenAI | 17.6% | Трансформерная LLM | — | Статическое предсказание токена, ограниченное обобщение |
| GPT-4o / GPT-4 | OpenAI | 0% | Статическое обучение (пре-трейнинг) | — | Запоминание навыков, отсутствие адаптации во время теста |
| NVARC | I. Sorokin & J-F. Puget (NVIDIA) | 24.03% | Ансамбль малых моделей (4B), синтетика, обучение во время теста (TTT) | $0.20 | Объектность, пространственная логика, адаптация через TTT |
| the ARChitects | the ARChitects | 16.53% | 2D-aware masked-diffusion LLM, рекурсивное самосовершенствование | $0.20 | Объектная когезия, рекурсивное рассуждение |
| MindsAI | Jack Cole (MindsAI) | 12.64% (до 15.42%) | Конвейер обучения во время теста (TTT), аугментационные ансамбли | $0.20 | Адаптация на лету, активный вывод |
| GPT-5.2 Pro (High) | OpenAI | 54.2% | Цепочка рассуждений (CoT), программный синтез | $15.72 | Символическая интерпретация, композиционное мышление |
| Gemini 3 Pro (Refinement) | Poetiq / Google | 54.0% | Циклы уточнения (refinement loops) на базе Gemini 3 Pro | $30.57 | Эффективность усвоения навыков через обратную связь |
| Opus 4.5 (Thinking) | Anthropic | 37.6% | Коммерческая система рассуждений (CoT) | $2.20 | Абстрактное рассуждение, планирование |
| Tiny Recursive Model (TRM) | A. Jolicoeur-Martineau | 8.0% | Рекурсивная нейросеть (7M параметров), глубокое уточнение | $2.10 | Принцип минимальной длины описания (MDL), объектность |
| CompressARC | I. Liao & A. Gu | 4.0% | Нейронный «код-гольф» на основе MDL, без предобучения | — | Алгоритмическая сложность, сжатие как интеллект |
| Человек (средний) | Исследование NYU / ARC | 85% (порог AGI) | Биологический интеллект | — | Объектная когезия, агентность, причинно-следственная связь |
ARC-AGI остается единственным «честным» экзаменом в мире, наводненном тестами на эрудицию. Он спрашивает ИИ не о том, что тот знает, а о том, как тот думает.
Настоящий AGI родится не тогда, когда компьютер выучит весь интернет, а тогда, когда он решит ARC-задачу так же легко и дешево, как это делает человек.
Источники: 1 Kevin Lacker, 2 ARC Prize, 4 Robert Tjarko Lange, 16 ARC-AGI-2, 19 Matthew Griffin, 22 NVIDIA Blog, 32 Telegram-канал «Сиолошная».