Google Gemini
Google Gemini
Олег Белов Опубликована сегодня в 2:26

ИИ, который не объясняет, а делает: Google научила Gemini кликать, вводить и работать в браузере

Gemini 2.5 научилась работать с сайтами и приложениями как человек — Google DeepMind

Компания Google DeepMind представила новую версию модели Gemini 2.5 с функцией Computer Use - это режим, в котором искусственный интеллект способен взаимодействовать с веб-интерфейсами так же, как человек: вводить текст, нажимать кнопки, выбирать пункты меню и даже перемещать элементы на экране.

Функция уже доступна разработчикам через Gemini API и облачную платформу Vertex AI, а для широкой аудитории Google открыла демонстрацию на Browserbase.

Как работает Gemini 2.5 Computer Use

В основе новой функции лежит циклический процесс взаимодействия с интерфейсом.

  1. Модель получает скриншот экрана, историю предыдущих действий и задачу, например: "ввести текст в поле поиска" или "отправить форму".

  2. Затем агент генерирует следующее действие, которое исполняется клиентом.

  3. После выполнения команда фиксируется новым скриншотом, и цикл повторяется, пока цель не будет достигнута.

За весь процесс отвечает инструмент computer_use, встроенный в Gemini API. Пока он оптимизирован только для браузеров, хотя Google не исключает расширения возможностей на уровне настольных приложений в будущем.

"Gemini теперь может работать в реальных интерфейсах, а не только рассуждать о них. Он видит экран, анализирует контекст и действует пошагово", — отмечают в команде Google DeepMind.

Что умеет агент

В публичных демонстрациях Gemini 2.5 Computer Use уже выполняет широкий спектр задач:

  • заполняет веб-формы и поля поиска;

  • выбирает пункты в выпадающих списках;

  • проходит авторизацию на сайтах;

  • переносит данные между разными сервисами;

  • управляет досками и визуальными интерфейсами (например, в Trello или Figma).

Особенность системы в том, что она работает с реальными веб-страницами, включая страницы за авторизацией. Это открывает путь к автоматизации корпоративных интерфейсов, CRM-систем и офисных процессов без необходимости писать интеграции.

Новый шаг в развитии агентных систем

Gemini 2.5 Computer Use — часть направления, которое Google называет "action-centric AI", то есть ИИ, способного не только понимать инструкции, но и выполнять реальные действия.

Это приближает систему к концепции универсального цифрового агента, способного работать с приложениями, сайтами и документами от лица пользователя.

В отличие от традиционных моделей, Gemini 2.5 воспринимает интерфейс визуально - как изображение, а не код, что делает его независимым от структуры сайта и пригодным даже для сложных UI.

"Мы хотим, чтобы агенты могли не просто объяснять, как выполнить задачу, а действительно делать это сами", — заявили разработчики DeepMind.

Безопасность и контроль

Поскольку Gemini теперь способен взаимодействовать с реальными интерфейсами, Google уделила особое внимание безопасности и прозрачности.

  • Каждое действие проходит внешнюю проверку на безопасность.

  • Некоторые операции (например, покупки или передача данных) требуют явного подтверждения пользователя.

  • Попытки обойти CAPTCHA или вмешаться в работу устройств блокируются автоматически.

Google подчёркивает, что система находится в статусе публичного превью - основной упор сделан на стабильность и ограниченные сценарии применения, прежде чем она получит более широкий функционал.

Потенциальные сценарии применения

Gemini 2.5 Computer Use открывает возможности для автоматизации:

  • офисных процессов - заполнение отчётов, обновление таблиц, ввод данных в корпоративные панели;

  • веб-тестирования и QA - автоматическая проверка интерфейсов и форм;

  • электронной коммерции - обновление цен, мониторинг конкурентов, оформление заказов;

  • поддержки пользователей - помощь в пошаговом решении задач прямо в интерфейсе сайта.

Для бизнеса это может стать альтернативой RPA-системам (Robotic Process Automation), но с интеллектуальной обработкой и визуальной гибкостью.

Технические детали

Характеристика Описание
Базовая модель Gemini 2.5
API-инструмент computer_use
Среда работы Web-интерфейсы (через браузер)
Доступ Gemini API, Vertex AI, Browserbase
Основной принцип Анализ скриншота + генерация действия
Безопасность Проверка каждой операции и подтверждение критических действий

Ограничения и планы

Пока Computer Use не оптимизирован для управления настольными приложениями или файловыми системами, и его задачи ограничены веб-сценариями.

Однако разработчики намекают, что в будущем Gemini сможет взаимодействовать и с другими уровнями интерфейсов, включая операционные системы, IDE и корпоративные панели управления.

Google также рассматривает возможность интеграции функции в Gemini for Workspace, что позволит пользователям автоматизировать действия прямо в Gmail, Docs и Sheets.

Почему это важно

Появление Computer Use знаменует собой слияние языковых моделей и интерфейсных агентов. Раньше ИИ мог лишь описывать действия или генерировать код, теперь же он реально выполняет шаги пользователя, наблюдая за результатом через экран.

Такой подход открывает новую эру интерактивных агентов, способных действовать не в теории, а в реальных цифровых экосистемах.

"Gemini становится не просто моделью, а активным участником интерфейса — цифровым исполнителем, который работает вместо человека", — подытожили в DeepMind.

Подписывайтесь на NewsInfo.Ru

Читайте также

OpenAI приобрела финтех-стартап Roi для интеграции инвестиционного анализа в ChatGPT сегодня в 12:16
Уолл-стрит напряглась: ChatGPT начинает давать советы по инвестициям

OpenAI покупает Roi — приложение с ИИ, которое умеет анализировать инвестиции. Теперь ChatGPT готов стать вашим личным финансовым аналитиком и помощником по капиталу.

Читать полностью »
Netflix запустил видеоигры для телевизоров со смартфоном в роли геймпада сегодня в 11:16
Это не мультик для детей — Netflix запускает игры, которые собирают всю семью у экрана

Netflix превращает телевизоры в игровые консоли: теперь играть можно прямо на экране ТВ, используя смартфон вместо контроллера. Что это значит для будущего стриминга?

Читать полностью »
Сэм Альтман строит инфраструктуру OpenAI на уровне гиперскейлеров — TechCrunch сегодня в 9:16
Сделка на триллион и пара неожиданных союзников: как OpenAI строит империю ИИ

OpenAI снова удивила рынок — теперь она акционер AMD и партнёр Nvidia. Почему эти сделки могут навсегда изменить индустрию искусственного интеллекта?

Читать полностью »
Novoloop и Huide заключили партнёрство для производства переработанного ТПУ — TechCrunch сегодня в 8:16
Завод будущего строится из мусора: стартап переплавляет пластиковый ад в прибыль

Американский стартап Novoloop нашёл способ превратить пластиковые отходы в прибыльный бизнес и заключил контракт, который может изменить рынок термопластичных полиуретанов.

Читать полностью »
Исследование: 36 % разработчиков при вайб-кодинге полностью игнорируют тестирование кода сегодня в 7:16
"Запустилось — значит, работает": новый стиль программирования ставит индустрию под угрозу

Исследователи проанализировали сотни кейсов вайб-кодинга и выяснили, что в погоне за скоростью разработчики жертвуют качеством. Но может ли такой подход всё же стать новым стандартом программирования?

Читать полностью »
Минцифры РФ объявило о планах замены восьми спутников сегодня в 6:18
Космос без права на ошибку: если не успеть с запуском, Россия рискует потерять орбиту

К 2030 году Россия заменит шесть спутников «Экспресс». Проект стоимостью 115 млрд рублей должен обеспечить стране независимость в космосе и надёжную связь для миллионов пользователей.

Читать полностью »
В Красноярске запущено серийное производство полированных германиевых пластин — впервые в России сегодня в 5:46
Германиевый прорыв: в Красноярске начали выпускать материал, без которого не летают спутники

В Красноярске запущено первое в России промышленное производство полированных германиевых пластин — материала, без которого невозможны современные спутники и солнечные батареи.

Читать полностью »
Минцифры выставит частоты 4800–4990 МГц на аукцион для развертывания 5G в России сегодня в 4:47
Минцифры даёт зелёный свет 5G — но операторы предупреждают: покрытие не окупится даже к 2040

Минцифры предложило ввести технологическую нейтральность частот LTE, разрешив использовать их для 5G. Однако операторы предупреждают: диапазон 4,8–4,99 ГГц дорогой, короткий и не поддерживается большинством смартфонов.

Читать полностью »