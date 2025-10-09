Россия Мир Экономика Происшествия Все рубрики
Mobile menu button
Искусственный интеллект
Искусственный интеллект
© commons.wikimedia.org by Kharsohtun is licensed under Creative Commons Attribution-Share Alike 4.0 International
Главная / Технологии
Олег Белов Опубликована сегодня в 15:16

ИИ, который думает глазами: китайская модель от Tencent учит машины понимать картинки по-взрослому

Tencent представила мультимодальную модель HunyuanVision с поддержкой русского языка

Китайская корпорация Tencent официально анонсировала новую мультимодальную модель HunyuanVision, которая объединяет анализ изображений и работу с текстом в единой системе. Разработчики называют её шагом к "универсальному ИИ", способному не только распознавать визуальные данные, но и рассуждать на их основе, выполнять сложные кросс-модальные задачи и поддерживать мультиязычное взаимодействие, включая русский язык.

Модель, которая понимает, а не просто видит

В отличие от традиционных систем компьютерного зрения, HunyuanVision не ограничивается распознаванием объектов. Она умеет анализировать контекст, связи между элементами и смысловую нагрузку изображения.

Ключевые возможности новой модели включают:

Visual Reasoning - логическое рассуждение по визуальным данным: HunyuanVision может объяснить, что происходит на картинке, и сделать выводы из контекста.
Multilingual Support - поддержка нескольких языков, включая китайский, английский и русский, что делает модель применимой в глобальных продуктах.
Visual Dialogue - ведение диалога с пользователем на основе изображений: модель может отвечать на вопросы о сцене или объекте.
Thinking-on-Image - умение рассуждать "внутри кадра", то есть анализировать детали, соотносить их с текстом и формировать выводы.

"HunyuanVision объединяет зрение и язык, превращая визуальную информацию в средство рассуждения", — заявили представители Tencent AI Lab.

Версия 1.5: скорость и качество

Текущая версия HunyuanVision-1.5 демонстрирует заметное улучшение скорости отклика и точности ответов по сравнению с предыдущими внутренними прототипами. По данным Tencent, модель успешно справляется с мультиязычными задачами, хотя для русского языка пока сохраняется небольшой процент ошибок при сложных лингвистических запросах.

При этом HunyuanVision уверенно обходит многие существующие мультимодальные системы в области понимания контекста изображений, например, в сценариях анализа документов, инфографики или инструкций.

Для разработчиков и исследователей

Tencent уже открыла доступ к HunyuanVision через Tencent Cloud API и экспериментальную платформу LMArena (Direct Chat), где пользователи могут протестировать модель в диалоговом формате.

Позднее в октябре компания планирует опубликовать технический отчёт и веса модели, что позволит исследователям глубже изучить архитектуру и воспроизводить эксперименты в собственных проектах.

"Открытие HunyuanVision для сообщества — наш вклад в развитие мультимодального ИИ и открытых стандартов взаимодействия между языковыми и визуальными системами", — отметили в Tencent Cloud.

Потенциальные сценарии использования

HunyuanVision ориентирована не только на исследователей, но и на прикладные задачи в корпоративном секторе. Среди потенциальных направлений внедрения:

  1. Автоматизация контент-модерации - интеллектуальная фильтрация изображений и текстов на платформах Tencent.

  2. Цифровые ассистенты - визуальные помощники, которые понимают фотографии, скриншоты и документы.

  3. E-commerce и ритейл - распознавание товаров, создание описаний и диалогов с покупателями.

  4. Образование и наука - анализ учебных материалов, лабораторных снимков и схем.

  5. Медиа и маркетинг - генерация визуально-текстовых концепций и описаний для креативных команд.

Сравнение: HunyuanVision и другие мультимодальные модели

Модель Разработчик Поддержка русского языка Доступ Ключевая особенность
GPT-4o OpenAI Частичная Платная API Унификация аудио, текста и изображения
Gemini 1.5 Pro Google DeepMind Ограниченная Google Cloud Встроенная мультимодальность
Claude 3 Opus Anthropic Нет Закрытая API Контекстные рассуждения
HunyuanVision-1.5 Tencent Да Tencent Cloud API / LMArena Глубокое визуальное рассуждение

Преимущества и ограничения

Преимущества Ограничения
Поддержка нескольких языков, включая русский Пока не все языки работают идеально
Быстрая интеграция через Tencent Cloud Ограниченный публичный доступ к обучающим данным
Возможность работы в реальном времени Нужны дополнительные тесты на больших выборках
Глубокий контекстный анализ изображений Версия 1.5 всё ещё в стадии тестирования

А что если Tencent откроет исходный код?

Если компания действительно опубликует веса HunyuanVision, это станет важным событием для всей исследовательской экосистемы. Модель может стать первым публично доступным китайским мультимодальным решением, способным конкурировать с GPT-4o и Gemini.

Для разработчиков по всему миру это откроет новые возможности — от локализации ИИ-приложений до создания универсальных систем визуально-языкового анализа с поддержкой азиатских и славянских языков.

Исторический контекст

Tencent уже несколько лет развивает линейку Hunyuan, объединяя языковые, визуальные и речевые технологии. В 2023 году компания представила Hunyuan Large Language Model, а теперь делает следующий шаг — объединение текстовых и визуальных возможностей в единой системе.

HunyuanVision вписывается в глобальную тенденцию создания мультимодальных моделей нового поколения, где ИИ не просто видит и читает, а понимает происходящее на уровне контекста.

Подписывайтесь на NewsInfo.Ru

Читайте также

Microsoft обновит Outlook: встроенные изображения перейдут на систему Content ID сегодня в 15:26
Письма больше не те: Microsoft меняет способ загрузки изображений в Outlook — готовь код

Microsoft меняет способ загрузки встроенных изображений в Outlook, переходя на fetch-запросы с токенами. Разработчикам придётся обновить надстройки до 15 ноября, чтобы избежать ошибок.

Читать полностью » Минэнерго США планирует сократить гранты на чистую энергетику на $500 млн — TechCrunch сегодня в 7:27
Станет ли Китай лидером навсегда? США рушит собственные планы по "зелёной" революции

Вашингтон готовит крупнейшее сокращение энергетических грантов: под удар попадают автогиганты и инновационные стартапы. Почему это решение может изменить будущее «зелёных» технологий?

Читать полностью » Международный институт IEEE утвердил основу регулирования гуманоидной робототехники сегодня в 6:36
Машины среди нас: гуманоиды получают свой первый свод правил

IEEE впервые представила структуру стандартов для гуманоидных роботов, которая может стать фундаментом для безопасного внедрения человекоподобных машин.

Читать полностью » Nvidia и Fujitsu объявили о создании национальной ИИ-инфраструктуры в Японии сегодня в 5:36
Япония строит новую цивилизацию ИИ: Nvidia и Fujitsu берутся за невозможное

Nvidia и Fujitsu создают в Японии новую инфраструктуру искусственного интеллекта, способную изменить подход к ИИ и робототехнике во всём мире.

Читать полностью » IBM и Anthropic создают безопасную экосистему корпоративных ИИ-агентов сегодня в 4:36
Соберите себе цифрового сотрудника: IBM даёт инструменты, которые меняют работу навсегда

IBM представила новые инструменты для корпоративного ИИ, расширила Watsonx и заключила стратегическое партнёрство с Anthropic. Что изменится для бизнеса?

Читать полностью » Xiaomi выпустит за пределами Китая только базовую модель Xiaomi 17 — без версий Pro и Pro Max сегодня в 3:36
Всё для Китая, крохи для остальных: Xiaomi снова обделила международных пользователей

Xiaomi решила не выпускать модели 17 Pro и 17 Pro Max за пределами Китая. На мировом рынке появится только базовая версия Xiaomi 17 — с меньшей батареей, но тем же мощным чипом Snapdragon 8 Elite Gen 5.

Читать полностью » 7 октября в России произошёл сбой Steam и других игровых сервисов из-за DDoS-атаки сегодня в 2:26
Война началась не в шутке: кто устроил цифровую бомбардировку Steam, Riot и Epic

7 октября пользователи по всей России сообщили о сбое Steam и других игровых сервисов. Причиной инцидента названа масштабная DDoS-атака, затронувшая инфраструктуру сразу нескольких платформ.

Читать полностью » сегодня в 1:18
Смартфон стал тоньше карандаша: три модели, которые могут переплюнуть iPhone Air

Редакция «Палача» выбрала три тонких Android-смартфона, которые могут стать достойной альтернативой iPhone Air. Среди них — Tecno Spark 40 Pro+, RedMagic 10 Air и Galaxy S25 Edge.

Читать полностью »

Новости
Садоводство
Выращивание биопрепаратов дома помогает укрепить иммунитет растений весной — Марина Лебедева
Авто и мото
Опрос Harris Poll: интерес американцев к электромобилям резко снизился после отмены льгот
Питомцы
Подъём кошек за холку приводит к травмам
Культура и шоу-бизнес
Миранда Керр рассказала о дружбе с Кэти Перри после развода с Орландо Блумом
Общество
Эксперт Дворянский: удалить данные из интернета полностью невозможно
Дом
Пролитый лак для ногтей можно удалить с пола с помощью обычного сахара
Технологии
Эксперты МВД предупредили: сброс к заводским настройкам не удаляет личные данные со смартфона
Красота и здоровье
Зелёный чай улучшает концентрацию и поддерживает уровень энергии на протяжении всего дня
Все рубрики О проекте Архив Авторы

Сетевое издание NewsInfo зарегистрировано Роскомнадзором 10 июня 2022 года (Эл № ФС77-83422).
Материалы сайта предназначены для лиц старше 18 лет (18+).
Учредитель - Новикова Инна Семеновна.
Главный редактор — Шестернёв Владислав Игоревич.
Контакты: +7 (499) 641-41-69, 105066, Москва, ул. Александра Лукьянова, д. 3, ООО "РИЦ Правда", info@newsinfo.ru

Counter LiveInternet