智能体开始接管桌面|红海eHR

很多人看这类消息，第一反应往往是“又一个会操作电脑的 AI”。这话不能算错，但也确实太轻了。

如果把过去两年的大模型演进看成一条主线，前半段的重点其实一直在“理解”和“生成”——能不能写、能不能答、能不能推理、能不能调工具。到了今天，竞争点已经开始往前挪：模型不只要会说，还得会干；不只会调 API，还得能直接进真实环境里完成任务。

所以，OpenClaw 这类能力被频繁提起，Hermes 这类产品形态又迅速跟上，并不只是热点叠热点。它们共同指向一件事：智能体正在从“对话层应用”往“操作层系统”渗透，而桌面，正好是这个变化最敏感的位置。

一、桌面为什么又成了焦点

这件事乍看有点绕。过去十几年，大家都在讲云、讲 Web、讲移动端，为什么现在反而开始重新盯着桌面？

原因很现实：真实工作流并不住在聊天框里。

开发、运营、设计、财务、销售、客服，这些岗位的大量操作都散落在桌面环境中：

浏览器标签页之间来回切
Excel、IM、邮件、企业后台一起用
本地文件和云端文档混着跑
很多老系统没有 API，甚至压根不打算开放
关键步骤依赖人眼确认、表单填写、窗口切换

这就是很多团队做到 Agent 落地时会卡住的地方。你让模型写方案、写 SQL、写脚本都可以，但一旦进入最后一公里，它总得碰到一个尴尬问题：系统并没有为它准备好结构化接口。

这时候，GUI 就从“低效的人机界面”变成了“最后通用接口”。

从工程角度看，桌面智能体的吸引力非常直接：

兼容遗留系统
不依赖完整 API 改造
更接近真实员工的工作路径
能覆盖跨应用、跨窗口、跨文件的长链路任务

所以这波桌面智能体，不是产品经理突然怀旧，也不是 AI 厂商突然爱上鼠标键盘，而是因为桌面层本来就堆着大量尚未被自动化吃掉的高价值流程。

二、OpenClaw 和 Hermes 代表的不是同一层东西

如果把它们都简单归类成“AI 自动操作电脑”，会漏掉关键差别。

从更容易理解的技术分层看：

OpenClaw 更像一类开放能力基座，关注的是智能体如何看懂界面、理解任务、规划动作、执行交互
Hermes 更像产品化落地形态，关注的是这些能力如何真正嵌进桌面环境，成为一个可用、可控、可分发的执行入口

也就是说，一个偏“能力层”，一个偏“系统入口层”。

很多人低估了后者的难度。模型会操作 GUI，只是开始；把它稳定地放进用户桌面，才是真正麻烦的部分。因为一旦进入桌面，它面对的就不再是干净的 benchmark，而是非常脏的现实环境：

分辨率变了
按钮位置变了
系统主题变了
网络抖了
页面弹窗挡住了
权限弹框来了
本地文件路径不一致
用户中途抢鼠标了

实验室里能跑通的 agent，搬到桌面后经常立刻原形毕露。这个问题我见过不少次：大家以为难点是模型够不够聪明，结果真正上线时，麻烦往往出在环境不可控。

三、桌面智能体真正补的是哪块能力

如果只看表象，这类系统像是在模拟人点鼠标、敲键盘。但从架构上看，它补的是一个长期空缺的能力层：面向非结构化软件环境的通用执行器。

传统自动化主要有两类：

方案	优点	问题	适用场景
API 自动化	稳定、高效、可观测	依赖系统开放接口	自研系统、SaaS 集成
RPA	能覆盖遗留系统	规则脆弱，维护成本高	固定流程、稳定界面
桌面智能体	泛化强，能处理一定变化	成本高，不稳定性仍明显	半结构化、多步骤任务

关键区别在于，RPA 是“录流程”，Agent 是“理解目标再执行流程”。

这看起来只是表达方式不同，实际上意味着完全不同的系统能力：

RPA 偏规则驱动
桌面 Agent 偏感知驱动 + 推理驱动 + 工具驱动

说白一点，RPA 更像严格照剧本演戏；桌面智能体更像知道目标后临场处理。前者稳定，后者灵活。但灵活的代价，也就是更高的不确定性。

这也是为什么很多人把桌面 Agent 直接视为 RPA 替代品，我一直觉得判断过早。更现实的路径是：先增强，再替代。

四、从聊天框到桌面，技术栈变了

智能体一旦进入桌面，系统设计重点会明显变化。过去做聊天机器人，核心是模型、提示词、知识库、工具调用。到了桌面层，技术栈开始往“感知-决策-控制-反馈”闭环收缩。

一个常见结构大致是这样：

流程图 - 智能体开始接管桌面

这里面最核心的，不是“大模型负责思考”这么一句空话，而是几个很硬的技术问题。

1. 感知不是截图识别这么简单

桌面环境里的感知至少有三层：

视觉层：识别按钮、输入框、菜单、窗口状态
结构层：获取 UI Tree、Accessibility API、DOM 信息
上下文层：知道当前任务做到哪一步，接下来该去哪

纯视觉方案泛化强，但容易慢、贵，而且对细微变化敏感。纯结构化方案更稳，但前提是应用愿意暴露可访问性接口。

现实里靠谱的做法通常是混合：

能拿 DOM / Accessibility 就优先拿
拿不到再退化到视觉识别
关键动作前做二次确认
关键状态做多源校验

这就是典型的工程权衡。纯视觉听上去更“通用智能”，但真到生产里，能走结构化通道就别硬扛视觉。因为稳定性、成本、延迟都摆在那里。

2. 规划不是越长越好

很多桌面任务是长链路的，例如：

下载报表
解压文件
打开表格
复制字段
登陆后台
填表提交
截图保存
发邮件通知

听起来像是适合让大模型一口气规划十几步。但真正在生产环境里，长规划常常不如短闭环。

更稳的方式一般是：

先做高层任务拆分
每一步执行后重新观测环境
允许局部回滚和重试
在关键节点请求人工确认

因为 GUI 环境变化太多，预先生成的完整计划，执行到第三步以后经常就已经偏了。

3. 执行器决定上限

很多人把“会用电脑”理解成点击和输入，其实这只是最低层。

更成熟的执行器一般会分成三层：

执行层	能力	典型方式
GUI交互层	鼠标、键盘、窗口控制	OS Hook, UI Automation
工具调用层	文件、剪贴板、浏览器、脚本	本地工具 / MCP / Shell
系统能力层	权限、进程、网络、存储	OS API, 沙箱能力

如果 Hermes 这类产品真的要把智能体“搬进桌面”，它的价值就不只是一个浮在桌面上的聊天助手，而是要把这三层能力组织起来。

这也是桌面 Agent 和普通 AI 助手最大的分水岭：前者要真正接管执行路径，后者更多只是生成建议和触发简单动作。

五、真正难的不是能不能做，而是怎么控

桌面智能体一旦开始执行真实任务，安全和控制就绕不过去。

这件事跟网页插件、脚本自动化最大的不同在于，它离用户数据和系统操作太近了。它能看到：

邮件
文件
聊天记录
浏览器会话
内网后台
本地缓存
剪贴板内容

它也能执行：

删除文件
发消息
提交表单
下载上传
打开内部系统
复制敏感数据

所以桌面 Agent 能力越强，产品设计就越不能只强调“自动化效率”，必须同步解决控制面。

比较合理的控制策略，通常包括这些：

1. 权限分级

不同动作，风险不同：

只读观察
建议操作
半自动执行
全自动执行
涉及外发、删除、支付等高风险动作强制确认

2. 可回放与审计

每一步都要有日志：

看到了什么
依据什么做决定
执行了什么动作
成功还是失败
是否触发人工接管

没有审计链路，桌面 Agent 很难进企业环境。不是因为它不够聪明，而是因为企业没法为“黑箱操作”背锅。

3. 沙箱与隔离

一些桌面任务必须限制执行范围：

只允许操作特定应用
只允许访问指定目录
只允许在虚拟桌面执行
对外网访问做白名单控制

4. 人机协同边界

别把所有事情都交给 Agent。这个判断很关键。

适合全自动的任务：

固定模板填报
数据搬运
周期性下载上传
明确规则的跨系统同步

适合半自动的任务：

涉及业务判断的审批
含敏感字段的邮件发送
关键数据修改
财务、法务、客户触达类流程

很多团队一开始就冲着“全自动办公室员工”去，最后往往会撞墙。桌面 Agent 真正容易起量的场景，通常是高频、重复、跨系统、但风险可控的任务。

六、为什么这个时间点会集中爆发

这波桌面智能体不是突然出现的，它其实是几条技术线汇合后的结果。

1. 多模态能力终于够用了

前几年模型看图这件事，说能看，但离“稳定理解复杂界面”还差得远。现在至少在按钮、菜单、表格、弹窗这类元素识别上，已经足够支撑很多中低复杂度任务。

2. 工具调用成熟了

Function Calling、Agent Framework、MCP 这类机制，让模型不只是回答问题，而是可以更像一个调度器，把本地工具、浏览器、文件系统串起来。

3. 推理成本开始下降

桌面任务天然是多轮闭环。如果每一步都又慢又贵，产品根本没法用。随着模型推理成本下降、边缘设备能力增强、本地小模型可用性提升，这件事才开始具备产品化条件。

4. 企业对遗留系统自动化的需求一直在

这个需求不是新需求，只是过去主要靠 RPA、脚本、插件和人工流程兜着。现在模型带来了更强的适配能力，旧需求突然有了新解法。

所以这轮热度，不是凭空炒作出来的。它确实踩中了一个长期存在、但过去一直没被很好解决的痛点。

七、Hermes 这类桌面入口，价值可能比模型本身更持久

模型会变，基座会迭代，榜单会刷新，这些都很正常。但如果站在产品和系统演进的角度看，真正值得盯的可能不是“哪个模型当前最会点按钮”，而是谁能占住桌面执行入口。

因为一旦入口成立，后面能叠的东西很多：

本地文件语义索引
跨应用工作流编排
用户行为记忆
个性化自动化模板
企业权限体系
审计与合规
本地模型 + 云模型协同调度

桌面入口一旦被做成，Agent 就不只是一个聊天产品附属功能，而会更像新一代操作层能力。它不一定替代操作系统，但会在操作系统之上长出一层“智能执行中间件”。

这个判断的前提当然也很清楚：它必须解决稳定性、安全性、延迟和可控性。做不到这些，桌面 Agent 很容易沦为演示效果惊艳、日常使用别扭的玩具。

八、别高估短期替代，也别低估长期改造

现在谈桌面智能体，最容易出现两个极端。

一个极端是过度乐观，觉得办公室知识工作很快就会被这类 Agent 大规模替代。另一个极端是完全不信，认为这不过是把 RPA 包了一层大模型外壳。

这两种看法都不够工程化。

更稳妥的判断是：

短期看，它会先吃掉一部分重复性高、界面变化可控、跨工具操作繁琐的任务
中期看，它会和 API 自动化、RPA、人工审核长期共存
长期看，如果桌面入口、权限体系和本地执行框架成熟，它确实可能重塑很多个人生产力软件和企业工作流

说到底，这波变化真正有意思的地方，不在于 AI 学会了点鼠标，而在于软件世界那个长期默认由人类承担的“操作层”，开始第一次被系统性重写。

OpenClaw 代表能力正在开源化、通用化，Hermes 代表产品形态开始贴近真实桌面。前者说明这条路技术上正在变得可复制，后者说明它已经不满足只待在实验环境里了。

接下来真正值得看的，不是谁的演示视频更丝滑，而是谁能把这套东西放进复杂环境后，依然跑得稳、控得住、算得清。

桌面从来不是最性感的一层，但往往是最接近真实生产力的一层。智能体一旦真的站上这里，很多软件交互方式，可能就要慢慢改写了。



HR数字化产品

国央企单位
State owned enterprise units

银行金融

高新科技

消费品

服饰行业

餐饮行业

能源矿业

制造行业

生物医药

智能体开始接管桌面

一、桌面为什么又成了焦点

二、OpenClaw 和 Hermes 代表的不是同一层东西

三、桌面智能体真正补的是哪块能力