【导读】在Claude Opus 4.6刷新Terminal-Bench 2.0不久后,OpenAI推出GPT-5.3-Codex,迅速将该基准成绩推至77.3%。这次更新不仅是单点“写代码更强”,而是将编码能力、推理与专业知识整合进同一模型,并在token效率、长时间Agent协作、桌面视觉操作与网络安全能力上同步提升。更关键的是,OpenAI披露了“早期Codex参与构建Codex”的工程实践,使模型训练、部署与评测进入更强的自举式迭代周期。
一、从“写代码”到“会操作”:关键基准与能力拼图更新
此次GPT-5.3-Codex的定位,不再局限于传统的代码补全或单轮生成,而是强化“Agent在真实工具链里完成任务”的闭环能力。OpenAI对外披露的多项基准结果,覆盖终端操作、软件修复、桌面视觉任务、知识工作与网络安全等维度,呈现更接近真实研发与办公场景的能力结构。
1)Terminal-Bench 2.0:77.3%
Terminal-Bench 2.0关注编码Agent在终端环境中的操作与任务完成能力,强调工具调用、命令执行、调试与多步流程的稳定性。
- GPT-5.2-Codex:64.0%
- GPT-5.3-Codex:77.3%
同时,OpenAI强调GPT-5.3-Codex在该基准上使用的token更少,意味着不仅更“会做事”,也更“省输出”,对实际推理成本与响应速度有直接影响。
2)SWE-Bench Pro:56.8%
SWE-Bench Pro被描述为比SWE-bench Verified更难,覆盖四种语言,并更强调抗数据污染。GPT-5.3-Codex在准确率与token消耗上都表现突出,体现其在真实软件工程修复任务中对“少走弯路”的优化。
3)OSWorld-Verified:64.7%(人类约72%)
OSWorld-Verified是偏“视觉桌面操作”的benchmark:模型需要基于视觉在桌面环境完成各类电脑任务。
- GPT-5.2-Codex:38.2%
- GPT-5.3-Codex:64.7%
这一跃升意味着模型从“看得见但做不稳”走向“接近人类水平”的可用区间,为后续的桌面办公Agent、自动化运维与跨应用流程编排提供了更可信的基础。
4)GDPval:70.9%
GDPval将评测范围扩展到44个职业的知识工作任务,涵盖做PPT、做表格、写文档与分析报告等。GPT-5.3-Codex与GPT-5.2持平(70.9%),说明其在“通用知识工作输出”方面并非单纯靠更大输出取胜,而更多把提升集中在软件工程与工具协作链路。
5)网络安全 CTF:77.6%
- GPT-5.2:67.7%
- GPT-5.3-Codex:77.6%
在CTF类任务中的提升,叠加其“被直接训练来识别软件漏洞”的描述,使其在安全方向呈现更明显的专业化倾向。
此外,OpenAI还给出一个组合性变化:GPT-5.3-Codex将GPT-5.2-Codex的编码能力与GPT-5.2的推理+专业知识能力合并到一个模型中,并声称速度比5.2-Codex快25%。从产品化角度看,这意味着研发团队可能不需要在“编码模型”与“推理模型”之间频繁切换,有利于统一工作流与降低集成复杂度。


二、长上下文Agent与可交互协作:从“一次性交付”到“持续迭代”
如果说基准成绩证明了能力上限,那么demo更像是在展示“工作方式”的改变:让模型在数百万token上下文中持续推进项目,边做边改,并且允许人类在中途介入决策。
1)以“develop web game”为核心的长时任务展示
OpenAI用“develop web game”skill配合“fix the bug”“improve the game”等follow-up prompt,让GPT-5.3-Codex在长上下文中自主迭代,展示其在复杂项目里的持续推进能力。公开演示包含两款游戏:
- 赛车游戏:包含8张地图、不同赛车手,并支持空格键释放道具等交互机制
试玩链接:
https://cdn.openai.com/gpt-examples/7fc9a6cb-887c-4db6-98ff-df3fd1612c78/racing_v2.html - 潜水游戏:探索珊瑚礁、收集鱼类图鉴,同时管理氧气、水压与危险
试玩链接:
https://cdn.openai.com/gpt-examples/7fc9a6cb-887c-4db6-98ff-df3fd1612c78/diving_game.html
这类demo的价值不在于“游戏好不好玩”,而在于验证模型能否在长链路任务中保持目标一致性、记住约束、持续修复回归问题,并在多轮迭代后仍能稳定产出可运行成果。
2)同prompt对比SaaS Landing page:细节决策能力差异
在同一个prompt下,GPT-5.3-Codex生成的SaaS Landing page呈现出更“产品化”的细节策略:
- 自动将年付方案折算成“折后月价”,强化折扣感知
- 增加三条用户评价的自动轮播
相比之下,GPT-5.2-Codex更偏常规实现。
对比页面链接:
https://cdn.openai.com/gpt-examples/7fc9a6cb-887c-4db6-98ff-df3fd1612c78/gpt53-codex-landing-page.html
这反映的是模型在前端交互、转化逻辑与信息架构上更主动的“设计决策”,也意味着未来“AI写前端”不再只是组件堆砌,而可能更接近“能理解业务目标的实现”。
3)交互方式升级:实时协作而非等待最终结果
传统Codex更像“你下指令—我给成品”。GPT-5.3-Codex强调工作过程中可实时交互:模型会主动同步进展与关键决策点,用户可中途提问、讨论方案或调整方向。相关设置入口位于:Codex app 的 Settings > General > Follow-up behavior。
这种交互范式更贴近真实团队协作:把“不可见的思考过程”变成可插入的协同节点,从而降低返工与误解成本。
三、“用Codex训练Codex”:自举式工程化迭代与安全边界同步加固
在一系列指标与demo之外,OpenAI披露的工程实践更具信号意义:早期版本的GPT-5.3-Codex被用于debug自身训练、管理部署与分析评测结果。其表述近似于“第一个参与创造自己的模型”,本质是将模型纳入研发基础设施,成为训练与上线流程的生产力工具。
1)研发与工程链路中的自我优化场景
公开信息中提到的典型用法包括:
- 研究团队:用Codex监控与debug训练过程,追踪训练行为模式,分析交互质量差异,并为研究员构建可视化工具以理解模型行为变化。
- 工程团队:用Codex优化推理框架,定位上下文渲染bug,分析缓存命中率低的根因;发布当天还用于GPU集群动态扩缩容与延迟稳定。
- Alpha测试量化:模型自己编写正则分类器来估算澄清频率、正负反馈、任务进度,并批量跑完session log生成报告。
- 数据科学:与数据科学家共同搭建数据管道与可视化,对上千个数据点进行快速摘要分析。
这类“自举式”工作流会带来两个显著变化:其一,模型不只是被评测对象,也成为评测与迭代工具;其二,迭代速度可能从“人驱动”走向“人+模型共同驱动”,在同等人力下更快压缩研发周期。
2)网络安全:Preparedness Framework下的High capability与配套安全栈
GPT-5.3-Codex被描述为OpenAI在Preparedness Framework下第一个被标为High capability的网络安全模型,并且是第一个被直接训练来识别软件漏洞的模型。同时,OpenAI表示没有确定性证据证明其能够端到端自动化网络攻击,但仍采取预防性措施,部署“迄今最全面的网络安全安全栈”,包含:安全训练、自动监控、高级能力可信访问、执行管道与威胁情报等。
配套动作还包括:
- Trusted Access for Cyber 试点项目,用于加速网络防御研究;
- Aardvark(安全研究 Agent)扩大内测范围,作为Codex Security产品线的首个工具;
- 与开源项目合作提供免费代码扫描,并提到在Next.js中发现漏洞且已披露;
- 在2023年$1M网安资助计划基础上,追加10M USD的API credits,面向开源软件与关键基础设施安全研究。
3)可用性与渠道
GPT-5.3-Codex已在Codex app、CLI、IDE扩展、web等渠道可用;API访问仍在准备中,节奏表述为“soon”。Codex app下载地址:
https://persistent.oaistatic.com/codex-app-prod/Codex.dmg

结语:技术背后的管理思考
GPT-5.3-Codex的看点并不止于“跑分反超”或“写代码更快”,而是它把Agent能力从IDE扩展到终端、桌面与知识工作流,并通过更低token消耗与实时协作机制,显著改变了团队与工具之间的分工方式。对企业管理者与HR而言,这意味着岗位能力模型会被重新切分:一部分重复性实现、环境操作、问题定位将更容易被自动化;而需求澄清、架构权衡、安全边界设定、跨部门协同与结果负责的能力权重会上升。与此同时,“用Codex训练Codex”的自举式迭代也提示企业:AI不仅是应用层插件,更可能成为研发与运维体系的基础设施,驱动流程再造与效率跃迁。正如红海云在探索新一代人力资源管理解决方案时所强调的,技术的终极价值在于赋能组织——通过更清晰的人才画像、技能升级路径与数字化协作机制,把AI带来的产能增量稳定沉淀为组织效能。




























































