Claude Opus 4.6同日撞上GPT-5.3 Codex：AI编程与Agent竞速|红海eHR

【导读】同一夜里，Anthropic与OpenAI几乎“同台发布”：Claude Opus 4.6与GPT-5.3 Codex相继上线。两者不再只比通用问答，而是把火力集中在Coding、终端任务、电脑操作、在线信息检索与长上下文等“可交付”的能力上。更关键的是，Agent化的产品形态正在被快速补齐：从多代理协作到可中途介入的自主迭代，AI开始更像一支可调度的数字化劳动力。

一、同日更新的信号：评测指标正在向“能干活”迁移

过去一段时间，LLM的竞争往往围绕“更大参数、更强知识、更会聊天”。而这次两家更新释放的共同信号是：行业评估口径正从“语言能力”进一步转向“真实任务完成率”。

从公开信息看，这次被高频提及的评测更贴近真实工作流，包括但不限于：

Terminal-Bench 2.0：在终端环境执行复杂真实任务（每题独立Docker容器），更像“让模型在命令行里把事做完”。
OSWorld / OSWorld-Verified：评估AI agent操作真实计算机的能力，涵盖点击、切换应用、处理网页不稳定性等。
BrowseComp：关注Agent在网上搜索信息并形成有效结论的能力。
GDPval / GDPval-AA：把任务拉到“知识工作交付物”层面（文档、表格、演示、图表），试图衡量对真实岗位产出的替代或增益。
SWE-bench Verified / SWE-bench Pro Public：围绕真实GitHub issue生成补丁并通过单测，强调“修得了Bug”。
ARC AGI 2：强调“流体智力（Fluid Intelligence）”的模式识别与推理题，常被视为跨任务迁移能力的指标之一。

这些基准共同构成一个趋势：模型不仅要“说得对”，还要“做得到、做得完、做得稳定”。

二、Claude Opus 4.6：长上下文 + 电脑操作 + 多代理协作的组合拳

从披露的结果看，Claude Opus 4.6在多个维度刷新了自家能力边界，尤其集中在“Agent需要的基础设施”上。

1）关键评测表现：终端、电脑、搜索与知识工作任务

Terminal-Bench 2.0：65.4%（被描述为当时最高之一）。该基准强调终端任务闭环，能一定程度反映模型“把工具用起来”的能力。
OSWorld：72.7%（相较前代被认为提升明显）。该指标对应“操作电脑”的可用性：鼠标点击、窗口切换、跨应用流程执行等。
BrowseComp：84.0%。在线检索能力的提升意味着Agent在“外部信息补全”上的成功率更高。
GDPval-AA Elo：1606。该体系用Elo量化在真实知识工作任务中的相对表现，分值提升通常被解读为“更接近可交付”。

此外，ARC AGI 2：68.8%也被认为是亮点，常与“在新情境下的推理与模式发现”相关联。

需要注意的是，不同机构、不同配置（是否接入浏览器/终端/agent框架）会影响可比性。跑分能提供方向，但并不直接等价于某个企业场景里的ROI。

2）产品侧更新：1M token上下文与“context rot”对抗

本次讨论度极高的升级是：1M token上下文窗口。长上下文对Coding、审计、研究类任务的影响非常直接——模型可以一次性承载更完整的代码库片段、长文档、会议纪要、规范与历史变更。

但“支持长上下文”与“能用好长上下文”并不是一回事。业界常把性能随对话变长而衰减称为 context rot。为回应这一点，Opus 4.6被提到在 MRCR v2 的“needle-in-a-haystack”测试中表现突出：在100万token、8根针的设置下拿到76%（同文中对比某型号为18.5%）。这类测试意在验证模型在超长输入中定位关键信息的能力。

同时，输出上限提升到128K（由64K翻倍）也更适配“长交付物”场景：长代码生成、长报告、长规格说明书、批量用例与测试结果汇总等。

3）Context Compaction：把长对话“压缩成可继续工作的状态”

当Agent执行长任务时，历史对话会快速吞噬上下文预算。Context Compaction的价值在于：将旧对话自动压缩为摘要，让任务能继续推进而不必人工裁剪上下文。对于需要多轮探索、长链路执行的工作（代码重构、合规审查、复杂文档编辑），它更像一种“会话记忆管理机制”。

4）Adaptive Thinking与Effort：把推理成本从“开关”变成“旋钮”

在强调成本与速度的商业环境里，推理能力也需要调度。Opus 4.6的两个控制项——

Adaptive Thinking：让模型自行判断是否进入更深推理；
Effort（low/medium/high/max）：允许用户手动设置推理强度；
本质上是在把“质量-速度-成本”三角变成可配置的策略，而不是一刀切。

5）Agent Teams：从“子代理”走向“可协作的团队结构”

在Claude Code相关能力中，Agent Teams被视为重要变化：

过去的 subagents（子代理） 更像单会话内的分工，只向主代理汇报；
Agent Teams强调多个成员各自运行在独立上下文窗口中，并允许成员间直接通信、互相质疑与协调。

这类结构更接近真实软件团队的工作方式：前端、后端、数据库、测试同时推进，并在接口变更时互相同步，最终汇总交付。

6）Office场景延伸：Claude in Excel与Claude in PowerPoint

在插件侧，能力被进一步拉到“企业日常工具链”：

Claude in Excel：支持数据透视表编辑、图表修改、条件格式设置、排序筛选、数据验证与金融级格式等，并包含长对话自动压缩、拖放多文件等可用性改进。
Claude in PowerPoint：集成到侧边栏，能够读取既有布局、字体与母版，并按模板构建与定向编辑幻灯片。

这类更新的意义不在“能不能生成PPT”，而在于它开始嵌入组织里最常见的交付载体：表格与演示文稿。

7）价格与超长上下文定价（按素材信息保留）

API价格被描述为保持：$5/$25 每百万token（输入/输出）；当上下文超过20万token时，额外定价为 $10/$37.50 每百万token（输入/输出）。

三、GPT-5.3 Codex：在Coding基准上更激进，并把“自举式开发”摆到台前

与Claude更强调“长上下文 + 办公插件 + 多代理组织”不同，GPT-5.3 Codex的叙事更集中在两点：更强的编程闭环能力，以及模型参与自身研发流程的“自举”信号。

1）一个关键表述：模型参与了自己的开发过程

公开信息中最引人注目的一句是：
“GPT-5.3 Codex是我们第一个在创造自己的过程中发挥重要作用的模型。”

对应的解释是：在开发GPT-5.3 Codex过程中，团队使用早期版本模型来debug训练过程、管理部署、诊断测试结果和评估。
这意味着Codex不只是被用来“写业务代码”，也被用来加速“模型工程本身”的研发链路——训练脚本、部署流水线、测试框架同样是代码与工程系统。

如果这种“自举式工具链”持续增强，模型迭代速度可能会出现新的加速度：研发团队把更多工程性工作交给模型，进而释放人力去做更高阶的研究与产品定义。

2）可对齐对比点：Terminal-Bench 2.0的正面交锋

在两家披露中，最容易对齐的基准之一是 Terminal-Bench 2.0：

Claude Opus 4.6：65.4%
GPT-5.3 Codex：77.3%
差距约 11.9 个百分点。

在这个“终端闭环任务”基准上，GPT-5.3 Codex体现出更强的优势，也符合Codex系列面向软件工程任务的定位。

3）OSWorld分数背后的“口径差”：OSWorld vs OSWorld-Verified

在“操作电脑”能力上，素材强调了可比性问题：

Claude Opus 4.6提供的是 OSWorld（72.7%）
GPT-5.3 Codex提供的是 OSWorld-Verified（64.7%）

其中 OSWorld-Verified被描述为一次重构版本，修复了原版中300+问题（失效URL、反爬CAPTCHA、不稳定HTML结构、含糊指令、评测脚本过严/过松等），因此一般被认为更严格、更难。
这也提示企业在选型时要警惕“同名基准不同版本”的误读：分数高低之外，更要看评测设置与工具接入条件。

4）GDPval两套体系：wins-or-ties vs Elo，难以直接换算

素材给出的口径差异很典型：

GPT-5.3 Codex：GDPval wins or ties：70.9%（以人类专家为固定分母，由职业人类评审盲评“是否与人类一样好或更好”）
Claude Opus 4.6：GDPval-AA Elo：1606（基于Artificial Analysis体系与agent框架，Elo由比较与拟合得到）

这两者并非同一量纲，直接对比容易得出错误结论。对企业来说，更稳妥的方式是：围绕自身任务集做小规模POC，用一致工具链（同浏览器/同终端/同权限/同数据）评估交付质量与成本。

5）SWE-bench：Verified与Pro Public的“难度结构”差异

在SWE-bench上，双方披露的是不同子集：

Claude Opus 4.6：SWE-bench Verified 80.8%（500题、人工验证、仅Python）
GPT-5.3 Codex：SWE-bench Pro Public 56.8%（731题、多语言：Python/Go/JavaScript/TypeScript等，横跨41个仓库；参考解平均107.4行、4.1个文件；并纳入copyleft与专有代码库以降低数据污染风险）

因此，80.8%与56.8%不应被解读为“简单的强弱对比”，而更像“各自对不同难度结构与语言覆盖的表现”。

6）Codex产品形态：长周期自主迭代 + 人类可中途介入

素材提到OpenAI展示了两个由GPT-5.3 Codex生成的可玩游戏（赛车、潜水），并强调其在数天内自主迭代了数百万token，通过类似 develop web game 的Skills与通用跟进提示不断改进。
更实用的一点是：模型工作时可随时互动介入、调整方向，不必先停止任务再重启流程。这类“可打断、可纠偏”的交互机制，直接影响Agent在真实研发中的可控性。

此外，还提到性能侧体感提升：同任务所需token少于5.2-Codex的一半、单token速度提升25%以上（以公开社交平台表述为依据），这意味着在相同预算下可覆盖更长的迭代链路。

结语：技术背后的管理思考

从Claude Opus 4.6与GPT-5.3 Codex的同日更新可以看到，AI正在从“回答问题的助手”向“可调度的执行单元”演进：更长的上下文窗口、更强的Terminal-Bench 2.0表现、更严格口径下的OSWorld-Verified能力，以及Agent Teams、多轮自主迭代与可中途介入的交互方式，本质上都在提升“把任务做完并交付”的确定性。对企业管理者与HR而言，这会带来三点变化：第一，知识工作将更像生产流程，需要把工作拆分为可评估的任务包（输入、工具权限、验收标准、风险边界）；第二，组织能力建设会从“会不会用模型”转向“会不会搭工作流”，包括权限治理、数据分级、提示与评测体系；第三，人才画像也会随之变化——懂业务的人需要更熟悉自动化与Agent协作，懂技术的人则要更理解合规与组织流程。正如红海云在探索新一代人力资源管理解决方案时所强调的，技术的终极价值在于赋能组织：把AI能力嵌入岗位与流程，通过数据与系统化治理提升组织效能，而不是停留在零散的个人效率工具层面。



HR数字化产品

国央企单位
State owned enterprise units

银行金融

高新科技

消费品

服饰行业

餐饮行业

能源矿业

制造行业

生物医药

Claude Opus 4.6同日撞上GPT-5.3 Codex：AI编程与Agent竞速

一、同日更新的信号：评测指标正在向“能干活”迁移