谷歌 AI 代理内部：网络自动化的未来

Aisha Washington
1小时前
讀畢需時 8 分鐘

Inside Google's AI Agents: The Future of Web Automation

多年来，我们与人工智能的互动主要停留在对话层面。我们提问，它回答。我们提示，它生成。但一场根本性的转变正在发生，人工智能正从被动的知识神谕转变为主动的数字代理——一个不仅能理解我们的请求，还能在数字世界中执行这些请求的合作伙伴。引领这一潮流的是 Google，它推出了新的 Gemini AI 模型，旨在像人类一样浏览网页, 预示着一个自主完成任务的新时代。这不仅仅是关于更智能的聊天机器人，而是关于创建能够填写表单、测试用户界面，甚至帮你完成网上购物的 "AI agents"。

从 conversational AI 到 agentic AI 的演进代表了自智能手机以来消费技术领域最重大的飞跃之一。它有望重新定义生产力、可及性，以及我们与日常使用的数字工具之间的关系。随着 Google、OpenAI 和 Anthropic 等科技巨头竞相构建最强大的 agents, 理解这项技术不再是可选项——对于任何希望保持领先的人来说，这都是必不可少的。本文将深入探讨 Google 的最新突破，探索这些 AI agents 的工作原理、实际应用，以及它们对网络自动化未来的深远影响。

数字执行者的黎明：为什么 AI Agents 是下一个大事件

The Dawn of Digital Doers: Why AI Agents Are the Next Big Thing

"agent" 的概念在计算领域并不新鲜，但它与现代大型语言模型 (LLMs) 的结合却是革命性的。历史上，自动化依赖于 rigid scripts 和 APIs（应用程序编程接口）。如果网站没有 API，自动化任务就变得困难且脆弱，稍有设计变化就可能失效。AI agents 彻底改变了这一范式。

关键创新在于能够以与人类相同的方式感知和交互数字环境——特别是网络浏览器。这些 agents 无需程序化后门，而是 "看到" 屏幕，理解按钮、文本字段和菜单的上下文，并决定行动方案。这就像是给机器人一把特定门的钥匙，与赋予它看到任何门、理解如何操作把手并自行打开门的智能之间的区别。

Google 宣布推出具备 "computer use" 能力的新的 Gemini 模型，是对新兴行业趋势的直接回应。这紧随 OpenAI 对 "ChatGPT Agent" 的关注以及 Anthropic 自己的 "computer use" 模型之后，标志着全行业明显的转向。目标不再仅仅是回答用户的问题，"西班牙海鲜饭的配料是什么？" 而是迈出下一步："帮我订购西班牙海鲜饭的配料。" 这需要 AI 导航到杂货网站、搜索商品、将其添加到购物车，甚至可能完成结账——这是一个复杂的操作序列，迄今为止仅限于人类领域。

Google 的 Gemini 2.5 Computer Use 实际如何工作

How Google's Gemini 2.5 Computer Use Actually Works

Google 新系统的核心是 Gemini 2.5 Computer Use，这是一个利用 "视觉理解和推理能力" 来解释和执行用户在网络浏览器中的请求的模型。它旨在成为 Google 所称的 "agentic features" 的引擎，AI 在其中扮演主动助手的角色。

该过程可分为几个关键阶段：

视觉感知：模型分析屏幕上的像素，就像人眼一样。它不只是读取底层代码，而是识别按钮、表单、图像和文本块等视觉元素。这种视觉优先的方法使其能够抵御会破坏传统抓取器或机器人的网站重新设计。

语义理解： 利用其庞大的训练数据，AI 理解这些元素的目的。它能识别标记为 "First Name" 的框是输入姓名的地方，而标记为 "Add to Cart" 的按钮是用于点击购买商品的。

行动规划： 根据用户的最终目标（例如，"预订从纽约到伦敦的航班"），代理将任务分解为一系列较小的步骤。这可能涉及导航到旅行网站、输入出发和目的地城市、选择日期以及点击 "Search"。

执行：然后模型执行必要的操作。目前，Google 的模型支持 13 种核心操作，包括打开浏览器、输入文本、点击，甚至拖放元素。虽然这听起来有限，但这些基础操作是几乎任何网络任务的构建块。

与一些旨在实现完全计算机控制的竞争模型不同，Google 当前的实现有意被沙箱在浏览器内。该公司指出，该模型 "尚未针对桌面操作系统级控制进行优化"，这一区别凸显了注重安全的、以网络为先的方法。

从 UI 测试到网上购物：AI Agents 的实际应用

网络浏览 AI agents 的潜在应用非常广泛，涵盖专业和个人用例。Google 的研究和演示已经指出了几种今天可能实现的功能强大的应用。

对于开发者和企业：

自动化 UI 测试：最直接且影响最大的用途之一是软件开发。AI agent 可以被指示 "测试用户注册流程" 或 "验证结账流程是否正常工作"。它可以导航界面、填写表单，并报告任何错误或意外行为，从而大幅加快质量保证周期。

数据输入和表单提交： 重复性管理任务，例如填写和提交表单，可以完全自动化。代理可以获得包含信息的电子表格，并被指示将每一行输入基于网络的门户，从而节省大量手动劳动时间。

遗留系统集成： 许多企业依赖缺乏现代 APIs 的旧版网络系统。AI agents 可以充当桥梁，允许新软件与这些遗留界面交互，而无需进行昂贵的系统 overhaul。

对于消费者：

复杂研究与规划：想象一下，要求代理 "查找附近评分最高的意大利餐厅，这些餐厅现在营业且有两人位预订。" 代理会浏览评论网站、检查预订平台，并将信息整合成简单答案，甚至自行完成预订。

自动化购物：Google 自己的 Project Mariner 原型展示了一个能够根据食材列表将商品添加到购物车的代理, 这项任务展示了超个性化、自动化电子商务体验的潜力。

娱乐与探索： 在一个公开演示中，代理被要求玩 2048 游戏或浏览 Hacker News 查找热门话题，展示了它处理更动态和结构化程度较低的交互的能力。

让 AI Agents 发挥作用：当前格局一览

Putting AI Agents to Work: A Look at the Current Landscape

虽然愿景令人信服，但这项技术仍处于早期阶段。Google 的 Gemini 2.5 Computer Use 目前可通过 Google AI Studio 和 Vertex AI 供开发者使用。这使工程师和企业能够开始在此强大新功能之上进行实验和构建应用程序。对于那些好奇想亲眼看到它运行的人，可以在 Browserbase 上找到公开演示, 用户可以给代理分配简单任务，并实时观看它执行。

竞争格局正在升温，Google 的方法有一些关键差异化因素。虽然 OpenAI 的 ChatGPT Agent 和 Anthropic 的 Claude with computer use 有类似的雄心，但 Google 声称其模型 "在多个网络和移动基准测试上优于领先的替代方案"。一个关键区别是操作环境。Google 的模型目前严格限制在浏览器内，而一些竞争对手正在探索能够访问整个桌面操作系统的代理。这种仅限浏览器的方法可能会以更有限的功能为代价提供增强的安全性，这一权衡很可能成为技术成熟过程中的关键战场。

超越浏览器：自主 AI Agents 的未来

目前对网络浏览器的关注只是开始。这项技术的明确轨迹是从浏览器沙箱转向完整的操作系统。当一个 AI agent 不仅能浏览网络，还能打开应用程序、管理文件并跨不同软件协调工作流时，其效用将呈指数级增长。

机遇：

超个性化： 操作系统级代理可以学习你的个人工作流、管理你的日历、组织你的文件，并通过观察你的行为起草电子邮件，成为真正不可或缺的数字助手。

彻底的可及性： 对于残障用户，AI agents 可以提供新的独立水平，让他们通过简单的语音或文本命令控制数字环境，执行复杂的多步骤任务。

无缝工作流： 想象一下告诉你的电脑，"从最新电子邮件中获取销售数据，在 Excel 中创建摘要图表，并将其插入我的每周 PowerPoint 演示文稿。" 一个高级代理可以在几秒钟内完美执行整个序列。

挑战与风险：

安全与隐私： 赋予 AI autonomous 对个人计算机的控制是一项重大安全风险。恶意行为者可能会利用这些代理，或者代理本身可能采取意外的有害操作。强大的安全协议和 "human-in-the-loop" 监督将至关重要。

工作岗位流失： AI agents 擅长的任务——重复性数据输入、质量保证、行政支持——目前由数百万人执行。自动化这些角色的社会影响需要仔细考虑和规划。

可靠性和信任： 要让用户将控制权交给 AI agent，他们必须相信它能正确可靠地执行任务。建立这种信任需要经过验证的性能记录和透明、可解释的 AI 行为。

结论

像 Google 的 Gemini 2.5 Computer Use 这样的 AI agents 的出现，标志着我们与技术关系的关键时刻。我们正从命令计算机的世界转向与它们协作的世界。这些代理是迈向真正数字自动化未来的第一步，在这个未来中，我们的设备不仅响应我们，还主动为我们工作。虽然安全、伦理和可靠性方面的挑战仍然存在，但释放前所未有的生产力和可及性水平的潜力是不可否认的。数字执行者的时代已经开始。

常见问题解答 (FAQ)

1. 什么是 AI agent？

AI agent 是一个能够感知其数字环境、做出决策并采取自主行动以实现特定目标的人工智能系统。与仅响应查询的简单聊天机器人不同，代理可以代表你执行多步骤任务，例如导航网站或填写表单。

2. Google 当前 AI agent 技术的主要局限是什么？

Google 的 Gemini 2.5 Computer Use 的主要局限是它目前仅限于在网络浏览器内操作。它尚未针对控制计算机的完整桌面操作系统进行优化，并且支持一组特定的 13 种操作，如输入和点击，这限制了它与桌面应用程序交互或直接管理文件的能力。

3. Gemini 2.5 Computer Use 与 OpenAI 的 ChatGPT Agent 有何不同？

虽然两者都旨在为用户完成复杂任务，但当前的一个关键区别是操作环境。Google 的模型明确设计为仅在浏览器内工作，提供了一种沙箱化且可能更安全的方法。像 OpenAI 这样的竞争对手正在探索能够更广泛访问用户整个计算机的代理，这可能实现更复杂的跨应用程序工作流。Google 还声称其模型在特定的网络和移动基准测试上优于替代方案。

4. 开发者如何开始试验这个新的 AI 模型？

开发者可以通过 Google 的开发者平台（特别是 Google AI Studio 和 Vertex AI）访问 Gemini 2.5 Computer Use。此外，在名为 Browserbase 的服务上提供公开演示, 任何人都可以通过分配简单的基于网络的任务来测试其功能。

5. AI agents 在网络浏览之外的下一步是什么？

合乎逻辑的下一步是让 AI agents 从基于浏览器的工具演变为操作系统 (OS) 级别的完全集成助手。这将允许它们控制和自动化跨多个桌面应用程序（例如电子邮件客户端、电子表格、文件资源管理器）的任务，而不仅仅是网页，从而创建无缝且强大的工作流。

谷歌 AI 代理内部：网络自动化的未来

数字执行者的黎明：为什么 AI Agents 是下一个大事件

Google 的 Gemini 2.5 Computer Use 实际如何工作