云端 Agent 基建的难点|红海eHR

云端 Agent 这波热度起来之后，很多人第一反应都很直接：桌面上能跑的 Agent，搬到云上不就行了？看起来像是部署位置变了，真正做过的人通常很快会发现，事情远没这么简单。

桌面 Agent 的便利，很多时候是“白嫖”了用户本地环境：操作系统状态、浏览器上下文、文件系统、登录态、输入输出设备，甚至包括用户自己兜底的异常恢复。到了云端，这些默认存在的东西，几乎都得自己补齐。补齐的过程，本质上不是工程量变大一点，而是系统边界整个换了。

所以“为什么云端 Agent 基建这么难”这个问题，关键不在 Agent 本身有多智能，而在于你要不要为它重造一层可运行、可隔离、可恢复、可观测的执行世界。很多团队卡住，也往往卡在这里。

一、桌面 Agent 和云端 Agent，根本不是同一类问题

桌面 Agent 的优势，不只是“离用户近”。更准确地说，它运行在一个已经被用户长期配置好的环境里。

本地机器上，Agent 天然拥有这些能力：

稳定的 GUI 和操作系统事件
已登录的应用和网站会话
用户本地文件、剪贴板、通知、权限
较低的交互延迟
出错后可由用户直接接管

这些条件看上去理所当然，但放到云端，全都变成待建设项。

1. 云端不只是“远程跑一下”

云端 Agent 至少要自己解决四类问题：

维度	桌面 Agent	云端 Agent
运行环境	用户本机天然存在	需要按任务动态创建
状态持久化	本地状态天然留存	需要显式保存和恢复
会话与权限	用户已登录、已授权	需要托管、隔离、续期
失败恢复	用户可手动接管	需要系统自动重试、回滚、诊断

这就是第一层难点：桌面 Agent 借用环境，云端 Agent 必须生产环境。

如果你真的做过这一层，通常会知道它麻烦在哪。难点不是起一个容器，难点是起出来的环境是否“像一个可工作的用户空间”：

浏览器是不是能稳定启动
页面会不会因为无头模式、指纹、网络出口被风控
文件上传下载怎么处理
长任务中断后怎么续跑
一个租户的任务怎么避免污染另一个租户的上下文
模型、工具、浏览器、任务状态之间怎么关联

到了这里，它已经不像一个简单的 AI 应用，更像一个多租户自动化执行平台。

2. 云端 Agent 天生更依赖基建完整性

桌面 Agent 出问题，很多时候是局部失败。比如浏览器点错了、页面没打开，用户还在现场，可以修正。

云端 Agent 不一样。它一旦脱离用户现场独立执行，系统就必须承担更多责任：

环境初始化失败，任务直接不可用
会话丢失，任务链条中断
工具调用异常，可能导致动作和状态不一致
多步任务中的局部错误，可能在后续被放大
观测不足时，问题根因很难还原

这类系统有个很现实的特点：它的上限看模型，下限看基建。 很多演示里大家盯着 Agent 会不会规划，真到了生产环境，团队更常被浏览器实例泄漏、任务恢复失败、状态漂移、权限隔离这些问题拖住。

二、真正难的是“变化快”和“变化慢”绑在一起

云端 Agent 基建里，一个核心矛盾经常被低估：系统里有些东西变化极快，有些东西变化很慢，但很多实现把它们耦合在了一起。

这会直接拖垮迭代效率和稳定性。

1. 哪些东西变化快

变化快的部分通常包括：

Prompt 策略
Agent 规划逻辑
工具编排方式
模型版本切换
工作流规则
任务级上下文结构

这些东西往往一两周就会变，甚至一天改几次。因为业务还在探索期，产品也在找感觉，模型能力也在波动。

2. 哪些东西变化慢

变化慢的部分一般是：

浏览器/沙箱运行时
租户隔离策略
会话存储机制
任务队列与调度系统
状态机与恢复机制
日志、追踪、审计链路
成本控制和资源配额

这些是“地基”。一旦频繁改动，系统稳定性会明显下降。

3. 最怕的是快慢同仓

很多团队第一版实现很自然：把 Agent 逻辑、任务状态、浏览器控制、工具调用、重试逻辑全揉在一个服务里。早期确实快，能跑起来最重要。

但系统一旦开始承载真实任务，这种设计的副作用会快速出现：

改一个 Prompt，可能影响状态恢复逻辑
换一个模型，可能导致工具调用协议不兼容
增加一个工具，可能侵入调度层
修复浏览器稳定性问题，结果碰到业务层流程回归
单个任务形态变化，迫使底层运行时跟着改

本质上，这是把实验性逻辑和基础设施逻辑绑死了。

而云端 Agent 的现实恰恰相反：上层要快试错，下层要尽量稳。如果这两层没有切开，最后就会出现一个很典型的局面：业务嫌基建慢，基建嫌业务天天变，双方都不太高兴。

三、解“快慢耦合”，核心不是抽象漂亮，而是边界清楚

这个问题没有银弹，但有一条很实用的主线：把“Agent 决策”与“Agent 执行环境”拆开，把“任务语义”与“运行时机制”拆开。

说白了，别让每次 Agent 能力变化，都去震动底层沙箱、调度和状态恢复系统。

1. 一种更稳的分层方式

可以把云端 Agent 基建大致切成四层：

流程图 - 云端 Agent 基建的难点

这几层的职责应该尽量稳定：

Agent 编排层

负责规划、决策、调用工具、处理任务上下文。

这一层允许快变。因为它本来就在试错。

执行协议层

把“我要做什么”翻译成可执行指令，比如：

打开某个页面
点击某个元素
上传某个文件
执行某个工具调用
等待某个状态变化

这一层是关键缓冲层。它的价值在于，让上层不用直接感知底层运行时细节。

运行时基建层

负责环境生命周期、任务调度、沙箱隔离、会话托管、状态快照、失败恢复。

这一层应该尽量慢变，因为它承担稳定性。

环境层

浏览器、容器、虚拟桌面、文件系统、网络出口、外部工具适配器等。

这一层是“执行世界”的物理基础。

2. 协议化是这类系统里很值钱的设计

很多人一提协议，会觉得太重。早期做产品当然不该上来就搞得像分布式操作系统。但云端 Agent 一旦要持续演进，协议层往往很值钱。

因为它解决的是两个高频痛点：

上层 Agent 逻辑改得快
下层运行时需要稳

举个简化后的示意代码：

{
  "task_id": "task_123",
  "step_id": "step_7",
  "action": "browser.click",
  "target": {
    "selector": "[data-testid='submit']"
  },
  "preconditions": [
    { "type": "element.visible", "selector": "[data-testid='submit']" }
  ],
  "timeout_ms": 5000,
  "retry_policy": {
    "max_retries": 2,
    "backoff_ms": 800
  }
}

这个结构看起来普通，但它带来几个重要收益：

可以做任务回放
可以做失败定位
可以做动作级审计
可以替换底层执行器
可以让多种 Agent 策略共享同一套运行时

这类设计很工程，不算花哨，但真正在生产环境里，麻烦往往出在这里。没有协议层，很多问题最后都只能靠日志猜。

3. 状态机比“长链路函数调用”更适合云端 Agent

另一个常见坑，是把整个任务流程写成一条很长的同步调用链：

规划
打开浏览器
登录
导航
操作
提交
收尾

这种写法在 demo 阶段非常顺手，但到了线上会比较脆：

某一步超时，前后状态难恢复
中途实例挂了，无法从中间继续
多阶段任务难做人工接管
并发调度和资源释放容易失控

更稳的方式通常是显式状态机化：

状态图 - 云端 Agent 基建的难点

状态机不优雅，甚至有点“土”，但它适合处理真实世界里的中断、超时、重试和恢复。很多系统做到后面，还是会回到这条路上。因为任务一旦长、环境一旦重、执行一旦异步，状态机几乎是绕不过去的。

四、CREAO 的几个基建教训，值得单独拎出来看

用户提到 CREAO，这里不展开未经披露的具体内部细节，只把这类云端 Agent 实践里非常典型、也很容易反复踩的教训抽出来讲。它们未必只属于 CREAO，但放在 CREAO 这样的云端基建实践语境里，意义很强。

1. 不要过早把 Agent 当成“单体产品功能”

很多团队最初会把 Agent 当成某个产品里的一个功能模块：有个入口，接上模型，挂几个工具，就上线试试。

问题在于，云端 Agent 一旦真要跑业务任务，它很快会长成平台能力，而不是页面功能。

因为它背后会持续要求这些能力：

任务生命周期管理
多租户隔离
凭证与会话托管
环境复用与回收
动作审计
失败补偿
成本监控

如果前期完全按单功能心态去做，后面重构成本会很高。这也是一个典型的工程权衡：早期不能平台化过度，但也不能把平台性问题全当作以后再说。

比较务实的做法是：

第一版允许实现粗糙
但边界要提前留出来
尤其是任务、环境、状态、执行协议这几个核心对象，不要写死在业务代码里

2. 环境复用能省钱，但会放大污染问题

云端 Agent 很贵，尤其涉及浏览器、桌面、视频流、模型调用时，资源成本上升非常快。

所以环境复用几乎是必做项。比如：

复用浏览器实例
复用登录态
复用预热沙箱
复用常见工具进程

但复用这件事有副作用，而且很容易晚点才爆：

残留 Cookie 污染后续任务
本地缓存导致行为不一致
上个任务的页面状态影响下个任务
租户隔离边界被打穿
难以解释偶现问题

这类问题我见过不少次。系统刚上线时，复用策略看起来收益很大，等到租户规模和任务复杂度上来，大家开始发现“偶发问题越来越多，但很难稳定复现”。

所以这里的取舍通常不是“复用还是不复用”，而是：

哪些层可以复用
复用的生命周期多长
哪些状态必须强制清理
是否按租户/任务类型分池
一旦出现异常，是否降级为全新环境

简化说，成本优化必须服从隔离和可解释性。 不然省下来的机器钱，最后会在排障和事故里补回去。

3. 观测体系不是附属件，是执行系统的一部分

云端 Agent 很怕“它没完成，但你也不知道它卡在哪”。

传统 Web 服务的观测粒度，通常到请求、接口、SQL、消息队列这一层已经够用了。Agent 不够。它需要的是动作级、任务级、环境级三层观测：

任务执行到了第几步
当前页面截图是什么
工具调用参数是什么
模型给出的决策是什么
重试前后的环境是否一致
哪个状态转移最容易失败
失败时网络、浏览器、DOM、工具哪个环节异常

如果没有这套观测，排障会非常痛苦。很多时候不是系统完全不能用，而是你无法低成本定位“为什么这一次不能用”。

一个比较实用的观测模型是把日志拆成三条线：

观测线	关注点	典型用途
任务线	任务状态、步骤流转	判断卡点与恢复点
动作线	每次执行指令与结果	回放、审计、复盘
环境线	浏览器/沙箱/资源状态	定位底层稳定性问题

这会增加实现复杂度，但收益很直接：出了问题，不用靠猜。

4. 人工接管能力，往往比“全自动闭环”更现实

很多云端 Agent 的产品叙事都喜欢讲全自动。这可以理解，毕竟演示好看。

但现实系统里，纯自动化的完成率很容易被长尾问题拉低：

页面结构临时变化
验证码或二次认证出现
登录态过期
第三方站点风控升级
外部接口返回异常格式
工具本身不可用

这个时候，如果系统没有人工接管点，任务只能失败。而如果支持中途介入、修正状态、恢复执行，整体可用性会高很多。

这背后的工程判断很务实：在真实业务里，可接管的半自动系统，往往比不可接管的全自动系统更先跑通。

这不意味着要放弃自动化，而是要承认 Agent 系统的成熟度是阶段性的。先把可恢复、可审计、可接管做好，再追求更高自动化率，通常更稳。

五、云端 Agent 基建到底该怎么判断是否做对了

这类系统很容易被两个指标误导：

demo 看起来很聪明
某个单任务成功率很高

但这两个都不足以说明基建做对了。

更值得看的，是下面这些问题：

1. 环境能不能稳定复现

同一个任务在相近条件下能否得到相近结果。如果不能，说明底层执行世界还不够稳定。

2. 任务失败后能不能恢复

不是重跑一次，而是从合理检查点续跑。这决定了长任务成本和用户体验。

3. 新增 Agent 策略时会不会牵动底层

如果每次业务试验都要改运行时，说明边界没切开。

4. 成本和隔离是否可控

能不能解释每类任务为什么贵，能不能限制单租户资源消耗，能不能避免跨任务污染。

5. 出问题时能不能快速定位

如果一次失败要翻十几种日志，还原半天现场，这套系统很难规模化。

从工程角度看，云端 Agent 基建成熟的标志，不是它“看起来像人”，而是它逐渐具备了平台系统的几个气质：

可调度
可隔离
可恢复
可审计
可扩展

这听起来不性感，但非常关键。

云端 Agent 难做，归根到底，不是因为大家不会调模型，也不是因为工具链还不够多。真正难的是，你在试图把一个原本寄生在用户环境中的能力，迁移成一套独立运行的云端执行系统。

一旦这么看，这个问题就清楚了：它不是简单的 AI 应用开发，而是浏览器自动化、任务编排、状态管理、多租户隔离、观测审计、成本控制叠在一起的系统工程。

所以这件事难，很正常。难的地方也不神秘：桌面环境消失了，你得自己造；上层变化太快，你得和底层切开；系统想跑进生产，就得接受稳定性、恢复性、可观测性这些“看着不酷但绕不过去”的约束。

CREAO 这类实践给人的启发也大致在这里：云端 Agent 的竞争，最后拼的不只是模型输出质量，更是谁更早把执行世界搭稳。模型决定上限，基建决定你能不能真的把这件事做成。

云端 Agent 基建的难点