Искусственный интеллект
Искусственный интеллект
Алексей Ларин Опубликована 21.09.2025 в 14:50

Малыш бьёт великанов: крошечный ИИ из Сингапура обошёл GPT и Claude

Новая компактная модель HRM из Сингапура обошла крупные ИИ-системы

Новая разработка из Сингапура привлекла внимание специалистов по искусственному интеллекту. Стартап Sapient представил архитектуру под названием HRM — "иерархическая модель рассуждений", которая неожиданно обошла признанных лидеров рынка в сложных тестах.

Что показали тесты

HRM справилась с проверкой на корпусе рассуждений ARC-AGI, где требуется не просто знание фактов, а умение делать выводы. Точность модели составила 40,3%. Для сравнения, o3-mini-high от OpenAI продемонстрировала 34,5%, Claude 3.7 — 21,2%, а Deepseek R1 — всего 15,8%.

Главный интерес вызвало не само лидерство, а то, каким образом оно было достигнуто. Новая модель оказалась крайне компактной: всего 27 миллионов параметров против миллиардов у традиционных систем. Это примерно в тысячу раз меньше, чем у классических LLM вроде GPT или Claude.

Минимум ресурсов и нестандартное обучение

Исследователи не использовали привычные методы предварительной подготовки или обучения с подкреплением. Вместо этого модель тренировалась на небольшом наборе в тысячу примеров. Тем не менее результат превзошёл ожидания.

Архитектура включает два уровня:

  1. высокоуровневый контроллер, формирующий стратегию.

  2. низкоуровневый исполнитель, решающий конкретные шаги.

Этот подход напоминает работу человеческого мозга, где абстрактное планирование отделено от мгновенной реакции.

Отличие от популярных методов

Большинство современных языковых моделей применяют цепочку рассуждений (Chain of Thought, CoT), где задача решается поэтапно. HRM действует иначе: весь процесс выполняется в один проход, что экономит ресурсы.

Модель показала уверенность не только в тестах, но и в практических задачах: решала судоку, прокладывала маршруты в лабиринтах, выполняла другие логические задачи.

Сравнение моделей

Модель Точность ARC-AGI Количество параметров
HRM (Sapient) 40,3% 27 млн
o3-mini-high 34,5% миллиарды
Claude 3.7 21,2% миллиарды
Deepseek R1 15,8% миллиарды

Советы шаг за шагом: как оценивать ИИ-модели

  1. Смотрите не только на размер модели, но и на эффективность.

  2. Обращайте внимание на используемые тесты (ARC-AGI, MMLU, BIG-Bench).

  3. Проверяйте прозрачность обучения: доступность данных и методик.

  4. Изучайте практические примеры применения, а не только цифры.

  5. Следите за доступностью открытого кода для независимой проверки.

Ошибка → Последствие → Альтернатива

  • Ошибка: выбирать систему только по числу параметров.

  • Последствие: высокие затраты на вычисления без гарантии результата.

  • Альтернатива: обратить внимание на модели вроде HRM, где эффективность достигается архитектурой.

  • Ошибка: доверять непроверенным результатам препринтов.

  • Последствие: разочарование при реальном использовании.

  • Альтернатива: ждать официального рецензирования и тестов сообщества.

  • Ошибка: применять ИИ без адаптации под задачу.

  • Последствие: снижение точности и рост ошибок.

  • Альтернатива: использовать модели с настройкой под конкретные области — например, медицинские ИИ для диагностики или чат-боты для поддержки клиентов.

А что если…

Если гипотеза авторов подтвердится, то на рынке появится новая волна компактных моделей. Они смогут работать даже на смартфонах или недорогих ноутбуках, не требуя облачных серверов. Это значит, что искусственный интеллект может стать по-настоящему массовым и независимым от крупных корпораций.

Плюсы и минусы HRM

Плюсы Минусы
Низкие требования к ресурсам Отсутствие открытого кода
Высокая точность в тестах Нет подтверждения от независимых групп
Простая архитектура Ранний этап разработки
Успех в логических задачах Риск переоценки метода

FAQ

Как выбрать подходящую ИИ-модель?
Сравнивайте не только результаты тестов, но и практическую применимость в вашей области — от обработки текста до решения задач в науке.

Сколько стоит использование таких систем?
Компактные модели обходятся дешевле: их можно запускать на локальных компьютерах. Крупные LLM требуют облачных сервисов, что увеличивает расходы.

Что лучше: большая или маленькая модель?
Зависит от задачи. Большие хороши для генерации текста и общения, маленькие эффективнее для узких логических задач.

Мифы и правда

  • Миф: чем больше параметров, тем умнее модель.
    Правда: эффективность зависит от архитектуры и метода обучения, как показал HRM.

  • Миф: маленькие модели не могут обойти гигантов.
    Правда: HRM уже показала обратное.

  • Миф: ИИ всегда требует огромных серверов.
    Правда: новые подходы позволяют запускать его даже на слабых устройствах.

3 интересных факта

  • HRM обошла модели с параметрами в сотни миллиардов при размере всего 27 млн.

  • Обучение шло на 1000 примеров без тонкой настройки.

  • Исследователи применили цикл уточнения, который пока остаётся малоизученным.

Подписывайтесь на NewsInfo.Ru

Читайте также

Православный мессенджер Зосима выйдет в первой половине 2026 года — Агапов 06.12.2025 в 7:57
Секретный проект раскрыт: Зосима выйдет в 2026-м и обещает стать главным духовным каналом

Православный мессенджер "Зосима" готовят к публичному запуску в 2026-м: тест уже прошли тысячи пользователей, а дальше всё решит масштабирование.

Читать полностью »
Конфликт приложений может замедлять работу гаджета — IT-эксперт Муртазин 05.12.2025 в 13:34
Когда телефон живет своей жизнью: из-за этих процессов гаджет начинает тормозить

Аналитик Эльдар Муртазин объяснил NewsInfo почему телефон может перегреваться и "тормозить".

Читать полностью »
Pokemon TCG Pocket признана лучшей игрой для iPhone — App Store Awards 2025 05.12.2025 в 13:25
Игры и приложения года раскрыты: пользователи не ожидали такого расклада от Apple

Премия App Store Awards 2025 изменила расстановку сил между крупными студиями и независимыми разработчиками, показав неожиданные приоритеты индустрии.

Читать полностью »
Модели телевизоров от Tuvio, TCL и Hisense названы лучшими до 17 тысяч рублей — Палач 05.12.2025 в 13:15
Бюджетные телевизоры поражают возможностями: не думал, что за такие деньги бывает такое

Подборка трёх доступных телевизоров до 17 тысяч рублей показывает, как бюджетный сегмент постепенно перенимает функции более дорогих моделей, сохраняя привлекательную цену.

Читать полностью »
Теневые каналы в Telegram живут в среднем семь месяцев — Лаборатория Касперского 05.12.2025 в 9:36
Лаборатория Касперского раскрыла правду: почему даже крупные теневые каналы в Telegram живут недолго

Kaspersky изучила 800+ теневых Telegram-каналов: в среднем они живут около семи месяцев. Почему блокировки усилились и куда уходят крупные сообщества?

Читать полностью »
Расширения WeTab и Infinity V+ собирали данные 4 млн пользователей — KOI Security 05.12.2025 в 8:57
Осторожно, обновление: как безобидное расширение после апдейта начало похищать ваши пароли

WeTab и Infinity V+ подозревают в скрытом сборе данных через обновления. Как работала "долгая" атака и почему пострадали миллионы пользователей?

Читать полностью »
Вредоносное ПО для Android закрепляется в системе — ТАСС 05.12.2025 в 8:23
Мошенники знают ваши слабые места: почему вы добровольно установите троян под видом YouTube Pro

Под видом "18+" и "расширенных" TikTok и YouTube пользователям подсовывают трояны. Как устроена сеть сайтов и что нашли операторы.

Читать полностью »
MacBook Air M1 признали актуальным в 2025 году — iGuides 04.12.2025 в 21:42
Этот недорогой MacBook снова все обсуждают — причина удивила даже опытных пользователей

Пользователи обсуждают, насколько старый MacBook Air M1 сохраняет актуальность на фоне падения цен и долгой поддержки macOS, и какие ограничения остаются заметными.

Читать полностью »