Малыш бьёт великанов: крошечный ИИ из Сингапура обошёл GPT и Claude
Новая разработка из Сингапура привлекла внимание специалистов по искусственному интеллекту. Стартап Sapient представил архитектуру под названием HRM — "иерархическая модель рассуждений", которая неожиданно обошла признанных лидеров рынка в сложных тестах.
Что показали тесты
HRM справилась с проверкой на корпусе рассуждений ARC-AGI, где требуется не просто знание фактов, а умение делать выводы. Точность модели составила 40,3%. Для сравнения, o3-mini-high от OpenAI продемонстрировала 34,5%, Claude 3.7 — 21,2%, а Deepseek R1 — всего 15,8%.
Главный интерес вызвало не само лидерство, а то, каким образом оно было достигнуто. Новая модель оказалась крайне компактной: всего 27 миллионов параметров против миллиардов у традиционных систем. Это примерно в тысячу раз меньше, чем у классических LLM вроде GPT или Claude.
Минимум ресурсов и нестандартное обучение
Исследователи не использовали привычные методы предварительной подготовки или обучения с подкреплением. Вместо этого модель тренировалась на небольшом наборе в тысячу примеров. Тем не менее результат превзошёл ожидания.
Архитектура включает два уровня:
-
высокоуровневый контроллер, формирующий стратегию.
-
низкоуровневый исполнитель, решающий конкретные шаги.
Этот подход напоминает работу человеческого мозга, где абстрактное планирование отделено от мгновенной реакции.
Отличие от популярных методов
Большинство современных языковых моделей применяют цепочку рассуждений (Chain of Thought, CoT), где задача решается поэтапно. HRM действует иначе: весь процесс выполняется в один проход, что экономит ресурсы.
Модель показала уверенность не только в тестах, но и в практических задачах: решала судоку, прокладывала маршруты в лабиринтах, выполняла другие логические задачи.
Сравнение моделей
| Модель | Точность ARC-AGI | Количество параметров |
| HRM (Sapient) | 40,3% | 27 млн |
| o3-mini-high | 34,5% | миллиарды |
| Claude 3.7 | 21,2% | миллиарды |
| Deepseek R1 | 15,8% | миллиарды |
Советы шаг за шагом: как оценивать ИИ-модели
-
Смотрите не только на размер модели, но и на эффективность.
-
Обращайте внимание на используемые тесты (ARC-AGI, MMLU, BIG-Bench).
-
Проверяйте прозрачность обучения: доступность данных и методик.
-
Изучайте практические примеры применения, а не только цифры.
-
Следите за доступностью открытого кода для независимой проверки.
Ошибка → Последствие → Альтернатива
-
Ошибка: выбирать систему только по числу параметров.
-
Последствие: высокие затраты на вычисления без гарантии результата.
-
Альтернатива: обратить внимание на модели вроде HRM, где эффективность достигается архитектурой.
-
Ошибка: доверять непроверенным результатам препринтов.
-
Последствие: разочарование при реальном использовании.
-
Альтернатива: ждать официального рецензирования и тестов сообщества.
-
Ошибка: применять ИИ без адаптации под задачу.
-
Последствие: снижение точности и рост ошибок.
-
Альтернатива: использовать модели с настройкой под конкретные области — например, медицинские ИИ для диагностики или чат-боты для поддержки клиентов.
А что если…
Если гипотеза авторов подтвердится, то на рынке появится новая волна компактных моделей. Они смогут работать даже на смартфонах или недорогих ноутбуках, не требуя облачных серверов. Это значит, что искусственный интеллект может стать по-настоящему массовым и независимым от крупных корпораций.
Плюсы и минусы HRM
| Плюсы | Минусы |
| Низкие требования к ресурсам | Отсутствие открытого кода |
| Высокая точность в тестах | Нет подтверждения от независимых групп |
| Простая архитектура | Ранний этап разработки |
| Успех в логических задачах | Риск переоценки метода |
FAQ
Как выбрать подходящую ИИ-модель?
Сравнивайте не только результаты тестов, но и практическую применимость в вашей области — от обработки текста до решения задач в науке.
Сколько стоит использование таких систем?
Компактные модели обходятся дешевле: их можно запускать на локальных компьютерах. Крупные LLM требуют облачных сервисов, что увеличивает расходы.
Что лучше: большая или маленькая модель?
Зависит от задачи. Большие хороши для генерации текста и общения, маленькие эффективнее для узких логических задач.
Мифы и правда
-
Миф: чем больше параметров, тем умнее модель.
Правда: эффективность зависит от архитектуры и метода обучения, как показал HRM. -
Миф: маленькие модели не могут обойти гигантов.
Правда: HRM уже показала обратное. -
Миф: ИИ всегда требует огромных серверов.
Правда: новые подходы позволяют запускать его даже на слабых устройствах.
3 интересных факта
-
HRM обошла модели с параметрами в сотни миллиардов при размере всего 27 млн.
-
Обучение шло на 1000 примеров без тонкой настройки.
-
Исследователи применили цикл уточнения, который пока остаётся малоизученным.
Подписывайтесь на NewsInfo.Ru