Codex 录下了你的工作流|红海eHR

你坐在电脑前干活，旁边有个东西一直看着你。你点了哪个按钮，填了哪些字段，在哪个页面停了一下，它都记下来。等你做完，它把这套流程整理成一个可复用的技能，下次你只要告诉它这次的输入变了哪里，它自己把活跑完。

这就是 Codex 新发布的 Record & Replay。

这个功能看起来像“录屏自动回放”，但如果只这么理解，会低估它的意义。它真正指向的是另一件事：过去很多自动化依赖 API、脚本和结构化接口，现在 AI 开始尝试直接学习人类操作软件的方式。图形界面，这个原本为人设计的交互层，正在变成 AI 获取软件能力的一条入口。

一、适合录下来的不是所有操作

Record & Replay 瞄准的不是所有桌面任务，而是那些“重复、繁琐、带个人偏好，但又很难完整写成文档”的流程。

比如：

报销单填写；
订停车位；
创建符合团队规范的 issue；
上传视频并配置元数据；
拉周期性运营报表；
在内部系统里完成一串跨页面操作。

这些任务有个共同点：步骤通常不复杂，但细节很多。

真正麻烦的地方往往不是“点哪个按钮”这么简单，而是：

文件名怎么写；
某个字段默认填什么；
遇到多个选项时按什么规则选择；
哪些输入每次会变；
哪些配置是团队约定；
做完后怎么判断结果是对的。

这类知识很难靠一段 prompt 讲清楚。你当然可以写一份 SOP，但写过的人都知道，SOP 一旦涉及界面、账号、表单、异常分支，很快就会膨胀成没人愿意维护的文档。

Record & Replay 选择了一条更接近人类学徒的路径：你做一遍，它看一遍，再把过程抽象成一个 skill。

从产品流程看，它并不复杂。

你先在 Codex 应用里打开 Plugins，搜索并添加 Record & Replay 插件。

然后授权录制。

接着在 Mac 上正常把任务做一遍。

这期间 Codex 会观察你的窗口、鼠标、键盘、页面状态和上下文变化，捕捉流程里的关键动作。

任务完成后，你从菜单栏或悬浮层停止录制，也可以直接告诉 Codex 已经录完。

录制结束后，Codex 会复盘刚才的操作，并起草一个 skill。这个 skill 通常会包含几类信息：

什么时候应该使用这套流程；
执行前需要哪些输入；
每一步大致怎么做；
哪些地方需要根据当前任务调整；
完成后如何验证结果。

这里有一个细节很关键：skill 不是传统意义上的“固定脚本”。

固定脚本关心的是确定性输入、确定性路径和确定性输出。一旦页面结构变了、按钮位置变了、输入文件换了，脚本就容易崩。Record & Replay 生成的 skill 更像是一份可复用上下文。它告诉模型“这个任务应该如何完成”，但执行时仍然会结合当前页面、当前文件、当前对话里的输入做判断。

这也是它比普通宏录制更有想象空间的地方。

二、它复现的是流程，不是鼠标轨迹

很多人看到 Record & Replay，第一反应会想到 RPA 或者按键精灵。这个联想没错，但也不完整。

传统桌面自动化通常有几种路线：

方案	工作方式	优点	问题
脚本/API	调用结构化接口	稳定、快、可测试	依赖接口开放
RPA	基于 UI 元素或坐标操作	能覆盖无 API 系统	对界面变化敏感
宏录制	记录鼠标键盘动作	上手简单	泛化能力弱
Record & Replay	观察人类操作并生成 skill	能沉淀流程语义	执行速度和可靠性仍受 GUI 约束

Record & Replay 的目标不是精确复刻你鼠标移动了多少像素，而是从你的操作中抽取流程语义。

比如上传 YouTube 视频的演示里，Codex 观察的是一整套任务：

选择视频文件；
填标题和描述；
上传缩略图；
添加字幕；
设置隐私选项；
处理视频文件和字幕文件的对应关系；
根据任务目标选择 Private 或 Unlisted；
在出现环境问题时寻找可用替代路径。

如果只是录鼠标轨迹，这套流程几乎没有复用价值。因为下次视频文件名会变、标题会变、字幕文件会变，甚至 YouTube Studio 的界面状态也可能不同。

真正有价值的是把这些操作抽象成：

这个任务需要一组视频资产；
.mp4 和 .srt 之间存在配对关系；
标题、描述、缩略图、隐私设置属于可变输入；
某些配置有默认规则；
结束时要确认上传状态和配置结果。

这类信息才是工作流的骨架。

所以更准确地说，Record & Replay 不是把电脑操作录成录像，而是把一次操作转译成 AI 可执行的工作流描述。

这会带来一个工程上的权衡：它比纯 API 慢，也更容易受界面变化影响，但它能覆盖大量没有 API、API 不完整、或者根本没法接入的系统。

在企业里，这类系统非常多。老后台、内部管理台、供应商系统、财务系统、CRM、各种低代码平台，很多都不是为了自动化友好而设计的。你想让它们开放 API，排期可能排到明年；你想靠人手操作，又耗时间。GUI 自动化虽然不优雅，但在现实里经常是唯一能跑通的路。

这就是它的实际价值。

三、Computer Use 是底层抓手

Record & Replay 能成立，前提是 Codex 已经具备“用电脑”的能力。

OpenAI 工程师 Jason 曾经梳理过 Codex 操作电脑的几条路径，大致可以分成三类：Computer Use、Chrome 扩展、应用内浏览器。再加上 Appshot 这种“指向上下文”的机制，它们共同构成了 Codex 理解和操作软件环境的能力层。

这里可以用一张简单的图看它们的关系：

流程图 - Codex 录下了你的工作流

第一条路是 Computer Use。

它能在 macOS 和 Windows 上观察并操作图形界面，通过窗口、菜单、键盘、鼠标和剪贴板去控制授权过的应用。

它的覆盖面最广。没有 API 的桌面应用、系统设置、开发工具、模拟器，甚至通过 iPhone 镜像操作手机界面，这些都属于 Computer Use 的能力范围。

代价也很明显：慢。

AI 要看界面，判断状态，点一下，等页面响应，再确认结果。它不像 API 调用那样一次请求拿到结构化返回值，而是在一个不够稳定的视觉环境里持续试探。

这也是 GUI 自动化天然的工程成本。界面可能延迟，弹窗可能打断，按钮文案可能变，窗口焦点可能丢。真正在生产环境里，麻烦往往出在这些边角状态，而不是主流程。

第二条路是 Chrome 扩展。

它接管你已经登录好的 Chrome，适合处理依赖账号、cookie、认证会话的网站任务。比如 Gmail、Salesforce、企业内部仪表盘、后台系统。

它比纯视觉控制更贴近浏览器上下文，能理解多标签页，也能利用当前登录状态。但边界也更敏感：它带着你的身份在操作。发送邮件、提交表单、发布内容、购买、转账，这些动作都应该保留人工确认。

第三条路是应用内浏览器。

它运行在 Codex 对话内部，适合开发调试 Web 应用。它隔离你的真实浏览器环境，不碰你的 cookie、扩展和登录态。对于开发者来说，这个边界很有用。AI 可以改代码、打开页面、截图、定位问题、再改一轮，形成一个比较紧的反馈环。

Appshot 则更像上下文入口。

它不直接操作电脑，而是把当前窗口的视觉和文字信息交给 Codex。比如你看到一个报错、一封邮件、一个复杂表单，连按两下 CMD 键，把窗口内容送进对话里，AI 就能围绕它分析和回答。

Record & Replay 依赖的核心还是 Computer Use。录下来的 skill 要能复现，底层必须有人替它操作窗口、鼠标和键盘。

不过在实际执行时，Codex 并不一定只用 Computer Use。一个 skill 可以结合当前环境里的工具：有插件就用插件，有 MCP 就用 MCP，浏览器可用就用浏览器，GUI 实在绕不过去再用视觉控制。

这个策略很实用。

因为从工程角度看，自动化工具的优先级通常应该是：

API / MCP / 插件；
浏览器结构化能力；
GUI 视觉操作；
人工确认。

越往前越稳定、越快、越可测试；越往后越灵活，但也越脆弱。

四、录制很简单，录好不简单

Record & Replay 降低了创建 skill 的门槛，但不代表随便录一段就能稳定复用。

这里有几个很现实的使用建议。

录制时尽量短而完整。不要把一个过大的业务流程一次性录完。比如“从素材准备到发布全渠道内容”听起来很诱人，但中间状态太多、分支太多，复现失败时也难定位。更好的方式是拆成几个小 skill：准备素材、上传视频、配置元数据、发布检查。

录制前先告诉 Codex 目标和变量。比如这次任务的目标是什么，哪些输入每次会变，哪些字段有默认值。这样它在生成 skill 时更容易区分“流程规则”和“本次样例”。

用真实输入，但不要录敏感信息。密码、验证码、支付信息、密钥、客户隐私数据，都不应该出现在录制里。AI 自动化一旦进入真实账号和真实数据环境，权限边界就要比普通工具更保守。

录完后补充隐性偏好。很多规则在操作里看不出来。比如 issue 标题要带模块名前缀，报表文件名要用 yyyyMMdd，视频描述固定加一段免责声明。这些最好在录制后显式补给 Codex，让它写进 skill。

流程做完就停。不要录着录着顺手回消息、切浏览器、改别的文件。Record & Replay 需要的是一条干净的任务轨迹。录制数据越杂，skill 越容易学偏。

这其实和教新人做事差不多。你不能一边演示报销，一边顺手处理 Slack、翻邮件、查账单，还指望对方准确学到“报销流程”。AI 也一样，只不过它更容易把噪声认真记下来。

五、它和插件不是一回事

Codex 的 Record & Replay 会生成 skill，但这不等于所有工作流都应该靠录制解决。

如果只是个人使用，或者某个流程变化频繁、文档化成本太高，录制很合适。它快，低门槛，足够贴近个人习惯。

但如果你要把一套能力分发给整个团队，或者要做权限管理、版本管理、依赖管理、多个 skill 打包、应用集成、MCP 服务器接入，那就应该认真做成插件。

可以简单区分一下：

场景	更适合 Record & Replay	更适合插件
个人重复任务	是	不一定
快速沉淀隐性流程	是	成本偏高
团队统一分发	勉强	是
需要版本控制	弱	强
需要稳定接口	弱	强
需要接 MCP / 外部服务	有限制	更合适
流程经常变	是	维护成本高

Record & Replay 更像是技能的快速原型工具。它把“我怎么做”快速变成“AI 可以怎么做”。

插件更像正式交付物。它适合标准化、规模化和治理。

这两者的关系有点像脚本和内部平台。脚本解决局部效率问题，平台解决组织级复用问题。很多团队的问题不是不会做平台，而是太早做平台。流程还没稳定，先录一个 skill 跑起来，反而更符合工程常识。

六、能力边界要看清楚

这次 Record & Replay 也有明确限制。

目前它只在 macOS 上可用，首发不覆盖欧盟、英国和瑞士，并且必须开启 Computer Use。

如果组织管理员使用 requirements.toml 统一管理 Codex，还要注意 [features].computer_use。这一项会同时影响 Computer Use 和 Record & Replay。也就是说，如果这里被设置为 false，Record & Replay 也会一起消失。

这类配置问题在团队环境里很常见。用户觉得功能“不见了”，最后查半天发现是组织策略关掉了底层能力。

另外，Codex 应用、CLI 和 SDK 并不只能接 OpenAI 自家的模型。通过 config.toml 配置 model_providers，可以指向 Ollama、LM Studio 这类本地模型，也可以接 Mistral、Azure、Amazon Bedrock 等第三方提供方。使用 --oss 参数还能运行本地 provider。

这说明 Codex 更像一个开放客户端，而不仅是某个单一模型的壳。Record & Replay 生成的 skill、Computer Use 的执行能力、插件和 MCP 的组合，最终都在这个客户端里汇合。

但这里也要保持克制。

模型可替换，不代表效果完全等价。GUI 理解、长流程规划、异常处理、上下文保持，这些能力非常吃模型质量。接本地模型当然有隐私和成本优势，但在复杂桌面自动化里，稳定性要实际测，不适合直接拍脑袋上生产。

七、GUI 正在变成 AI 的接口

过去很多年，自动化的基础是 API。

软件把能力封装成接口，外部系统通过接口调用。这个路径稳定、清晰、可观测，也符合工程系统的基本逻辑。只要 API 设计得好，自动化就能做得很扎实。

但 API 有一个现实问题：它取决于软件愿意开放什么。

很多系统没有 API；有 API 但覆盖不全；有 API 但权限申请麻烦；有 API 但文档过期；还有些 SaaS 产品故意把关键能力藏在付费版本里。于是大量业务流程仍然卡在人类手工操作上。

Record & Replay 代表的方向，是让 AI 直接进入人类原本使用的软件界面。

这会改变自动化的边界。

以前的边界是“有没有接口”。现在边界开始变成“AI 能不能看懂并稳定操作”。

这两者有很大差别。

API 自动化是软件主动暴露能力。GUI 自动化是 AI 从人类界面里反向提取能力。前者更可靠，后者覆盖面更广。工程上最合理的做法不是二选一，而是分层使用：

能用 API 的地方，优先 API；
能用 MCP 或插件的地方，优先结构化集成；
浏览器任务尽量利用 DOM 和会话能力；
实在没有接口，再用 Computer Use；
高风险动作保留人工确认。

这套分层会成为未来 AI Agent 落地时很重要的架构原则。因为没有任何团队愿意把核心业务完全押在“AI 看屏幕点按钮”上，但也很少有团队能等所有系统都开放完美 API 再开始自动化。

八、人开始训练软件使用者

Record & Replay 最有意思的地方，不是它让 Codex 多了一个功能，而是它改变了人与软件之间的关系。

过去，操作系统负责组织软件，人负责在软件之间切换、复制、填写、判断和提交。很多知识其实不在系统里，而在人的手上。比如某个后台该怎么填，某个报表该怎么导，某个异常该怎么绕。

人是软件之间的胶水。

当 AI 能跨应用观察、理解并执行任务时，它开始接管一部分胶水工作。用户的关注点会从“我该怎么操作软件”，逐渐转向“我要完成什么任务”。

这对软件产品也会有影响。

如果未来大量软件操作由 AI 完成，界面设计的优先级会发生变化。漂亮的布局、复杂的交互、隐藏式菜单，对 AI 来说未必重要。它更关心的是：

页面状态是否清晰；
按钮和字段语义是否明确；
操作结果是否可验证；
异常信息是否可理解；
是否有结构化接口可走；
自动化过程是否稳定。

这并不意味着 GUI 会消失。人仍然需要界面，尤其在探索、判断、审批和异常处理时。但 GUI 的另一个使用者出现了：AI。

从这个角度看，Record & Replay 其实把人的操作经验变成了训练材料。你做一遍，它学一遍；你补充偏好，它沉淀成 skill；下一次它带着这份经验去执行。

今天我们还在学习怎么使用工具。往后很多重复工作里，更重要的能力可能是：把你怎么使用工具，教给 AI。



HR数字化产品

国央企单位
State owned enterprise units

银行金融

高新科技

消费品

服饰行业

餐饮行业

能源矿业

制造行业

生物医药

Codex 录下了你的工作流

一、适合录下来的不是所有操作

二、它复现的是流程，不是鼠标轨迹

三、Computer Use 是底层抓手

四、录制很简单，录好不简单

五、它和插件不是一回事

六、能力边界要看清楚

七、GUI 正在变成 AI 的接口

八、人开始训练软件使用者

相关标签

热门文章

最新文章

Codex 录下了你的工作流

一、适合录下来的不是所有操作

二、它复现的是流程，不是鼠标轨迹

三、Computer Use 是底层抓手

四、录制很简单，录好不简单

五、它和插件不是一回事

六、能力边界要看清楚

七、GUI 正在变成 AI 的接口

八、人开始训练软件使用者

相关标签

相关文章推荐

别再只看评分了！一招教你选出好用的人力资源管理系统

热门文章

最新文章