谷歌发布 Gemini 2.5 Computer Use 模型：专攻浏览器交互，支持 13 种操作-人工智能的专栏

谷歌发布 Gemini 2.5 Computer Use 模型：专攻浏览器交互，支持 13 种操作

2025-10-08 20:56:17栏目：默认栏目 IP属地：IP未知

10 月 8 日消息，谷歌正在预览一款全新的 Gemini 人工智能模型，该模型旨在通过浏览器浏览网络并与之交互，使 AI 智能体能够在原本为人而非机器人设计的用户界面中执行操作。这款名为「Gemini 2.5 计算机使用」（Gemini 2.5 Computer Use）的模型，利用「视觉理解与推理能力」分析用户的请求，并完成相应任务，例如填写并提交表单。

该模型可用于用户界面测试，或用于操作那些仅面向人类用户、未提供 API 或其他直接接口的系统。此前，此类模型已应用于谷歌 AI 模式（AI Mode）中的智能体功能，以及研究原型项目「Mariner」，该项目利用 AI 智能体在浏览器中自主执行任务，例如根据食材清单自动将商品添加到购物车。

谷歌此次发布恰逢 OpenAI 在其年度开发者日（Dev Day）宣布推出 ChatGPT 新应用的次日。OpenAI 正持续聚焦其「ChatGPT 智能体」（ChatGPT Agent）功能，该功能可代表用户完成复杂任务。与此同时，Anthropic 公司已于去年发布了其 Claude AI 模型的「计算机使用」（computer use）版本。（来源：CnBeta）