Представьте, что вы общаетесь с психотерапевтом, который каждый сеанс забывает ваше имя, ваши проблемы и даже прошлые разговоры. Примерно так ведут себя большинство ИИ-ассистентов, пытаясь анализировать гигантские логи переписок.
Чтобы системно замерять эту "забывчивость" и создать единый академический стандарт для ИТ-отрасли, команда исследователей разработала LongMemEval — масштабный бенчмарк (набор тестов) для оценки долгосрочной интерактивной памяти нейросетей.
В этой статье мы разберем, как устроен этот бенчмарк, почему простым расширением "окна контекста" память не улучшить (даже на флагманских моделях 2026 года), и по каким правилам сейчас строятся передовые архитектуры.
LongMemEval — это комплексный инструмент для проверки памяти чат-ботов. Разработчики подготовили сложнейшие вопросы, разделив их на логические типы, чтобы систематически имитировать реальное использование ИИ месяцами.
Для тестирования были созданы два эталонных набора:
В LongMemEval заложены пять фундаментальных навыков, которыми должен обладать умный агент:
Короткий ответ: бенчмарк долгое время оставался непреодолимым препятствием для базовых архитектур.
Исследование установило, что попытка «скормить» всю историю в сыром виде даже самым актуальным моделям-рассуждателям с длинным контекстом (таким как Claude 4.6 или GPT-4o) приводит к катастрофическому падению точности. На полном наборе данных метрики часто болтались в диапазоне 30–70%.
Но именно этот бенчмарк дал толчок к развитию специализированных систем памяти. Например, весной 2026 года актриса и энтузиаст технологий Милла Йовович произвела фурор в опенсорс-сообществе, выпустив проект архитектуры MemPalace. Используя «Чертоги разума» поверх базы данных ChromaDB, эта векторная система смогла выбить рекордные 96,6% (на метрике R@5) в LongMemEval. Это наглядно доказало главный тезис исследователей бенчмарка: побеждает не гигантское окно контекста модели, а тонкая и умная оркестрация памяти.
Опираясь на результаты сотен прогонов по LongMemEval, исследователи сформулировали четыре ключевых правила (Findings) для создания ИИ-памяти:
timestamp у каждого факта повышает поиск памяти на впечатляющие 7–11%.Бенчмарк LongMemEval доказал, что сырая вычислительная мощь и огромные бюджеты на обработку токенов не дарят ИИ человекоподобную, интерактивную память. Именно этот тест подтолкнул индустрию к переходу от примитивного «чтения логов» к созданию интеллектуальных многоуровневых архитектур хранения и поиска.