OpenAI新Codex：长上下文Agent迭代与网络安全High capability|红海eHR

【导读】在Claude Opus 4.6刷新Terminal-Bench 2.0不久后，OpenAI推出GPT-5.3-Codex，迅速将该基准成绩推至77.3%。这次更新不仅是单点“写代码更强”，而是将编码能力、推理与专业知识整合进同一模型，并在token效率、长时间Agent协作、桌面视觉操作与网络安全能力上同步提升。更关键的是，OpenAI披露了“早期Codex参与构建Codex”的工程实践，使模型训练、部署与评测进入更强的自举式迭代周期。

一、从“写代码”到“会操作”：关键基准与能力拼图更新

此次GPT-5.3-Codex的定位，不再局限于传统的代码补全或单轮生成，而是强化“Agent在真实工具链里完成任务”的闭环能力。OpenAI对外披露的多项基准结果，覆盖终端操作、软件修复、桌面视觉任务、知识工作与网络安全等维度，呈现更接近真实研发与办公场景的能力结构。

1）Terminal-Bench 2.0：77.3%
Terminal-Bench 2.0关注编码Agent在终端环境中的操作与任务完成能力，强调工具调用、命令执行、调试与多步流程的稳定性。

GPT-5.2-Codex：64.0%
GPT-5.3-Codex：77.3%
同时，OpenAI强调GPT-5.3-Codex在该基准上使用的token更少，意味着不仅更“会做事”，也更“省输出”，对实际推理成本与响应速度有直接影响。

2）SWE-Bench Pro：56.8%
SWE-Bench Pro被描述为比SWE-bench Verified更难，覆盖四种语言，并更强调抗数据污染。GPT-5.3-Codex在准确率与token消耗上都表现突出，体现其在真实软件工程修复任务中对“少走弯路”的优化。

3）OSWorld-Verified：64.7%（人类约72%）
OSWorld-Verified是偏“视觉桌面操作”的benchmark：模型需要基于视觉在桌面环境完成各类电脑任务。

GPT-5.2-Codex：38.2%
GPT-5.3-Codex：64.7%
这一跃升意味着模型从“看得见但做不稳”走向“接近人类水平”的可用区间，为后续的桌面办公Agent、自动化运维与跨应用流程编排提供了更可信的基础。

4）GDPval：70.9%
GDPval将评测范围扩展到44个职业的知识工作任务，涵盖做PPT、做表格、写文档与分析报告等。GPT-5.3-Codex与GPT-5.2持平（70.9%），说明其在“通用知识工作输出”方面并非单纯靠更大输出取胜，而更多把提升集中在软件工程与工具协作链路。

5）网络安全 CTF：77.6%

GPT-5.2：67.7%
GPT-5.3-Codex：77.6%
在CTF类任务中的提升，叠加其“被直接训练来识别软件漏洞”的描述，使其在安全方向呈现更明显的专业化倾向。

此外，OpenAI还给出一个组合性变化：GPT-5.3-Codex将GPT-5.2-Codex的编码能力与GPT-5.2的推理+专业知识能力合并到一个模型中，并声称速度比5.2-Codex快25%。从产品化角度看，这意味着研发团队可能不需要在“编码模型”与“推理模型”之间频繁切换，有利于统一工作流与降低集成复杂度。

二、长上下文Agent与可交互协作：从“一次性交付”到“持续迭代”

如果说基准成绩证明了能力上限，那么demo更像是在展示“工作方式”的改变：让模型在数百万token上下文中持续推进项目，边做边改，并且允许人类在中途介入决策。

1）以“develop web game”为核心的长时任务展示
OpenAI用“develop web game”skill配合“fix the bug”“improve the game”等follow-up prompt，让GPT-5.3-Codex在长上下文中自主迭代，展示其在复杂项目里的持续推进能力。公开演示包含两款游戏：

赛车游戏：包含8张地图、不同赛车手，并支持空格键释放道具等交互机制
试玩链接：
https://cdn.openai.com/gpt-examples/7fc9a6cb-887c-4db6-98ff-df3fd1612c78/racing_v2.html
潜水游戏：探索珊瑚礁、收集鱼类图鉴，同时管理氧气、水压与危险
试玩链接：
https://cdn.openai.com/gpt-examples/7fc9a6cb-887c-4db6-98ff-df3fd1612c78/diving_game.html

这类demo的价值不在于“游戏好不好玩”，而在于验证模型能否在长链路任务中保持目标一致性、记住约束、持续修复回归问题，并在多轮迭代后仍能稳定产出可运行成果。

2）同prompt对比SaaS Landing page：细节决策能力差异
在同一个prompt下，GPT-5.3-Codex生成的SaaS Landing page呈现出更“产品化”的细节策略：

自动将年付方案折算成“折后月价”，强化折扣感知
增加三条用户评价的自动轮播
相比之下，GPT-5.2-Codex更偏常规实现。
对比页面链接：
https://cdn.openai.com/gpt-examples/7fc9a6cb-887c-4db6-98ff-df3fd1612c78/gpt53-codex-landing-page.html

这反映的是模型在前端交互、转化逻辑与信息架构上更主动的“设计决策”，也意味着未来“AI写前端”不再只是组件堆砌，而可能更接近“能理解业务目标的实现”。

3）交互方式升级：实时协作而非等待最终结果
传统Codex更像“你下指令—我给成品”。GPT-5.3-Codex强调工作过程中可实时交互：模型会主动同步进展与关键决策点，用户可中途提问、讨论方案或调整方向。相关设置入口位于：Codex app 的 Settings > General > Follow-up behavior。
这种交互范式更贴近真实团队协作：把“不可见的思考过程”变成可插入的协同节点，从而降低返工与误解成本。

三、“用Codex训练Codex”：自举式工程化迭代与安全边界同步加固

在一系列指标与demo之外，OpenAI披露的工程实践更具信号意义：早期版本的GPT-5.3-Codex被用于debug自身训练、管理部署与分析评测结果。其表述近似于“第一个参与创造自己的模型”，本质是将模型纳入研发基础设施，成为训练与上线流程的生产力工具。

1）研发与工程链路中的自我优化场景
公开信息中提到的典型用法包括：

研究团队：用Codex监控与debug训练过程，追踪训练行为模式，分析交互质量差异，并为研究员构建可视化工具以理解模型行为变化。
工程团队：用Codex优化推理框架，定位上下文渲染bug，分析缓存命中率低的根因；发布当天还用于GPU集群动态扩缩容与延迟稳定。
Alpha测试量化：模型自己编写正则分类器来估算澄清频率、正负反馈、任务进度，并批量跑完session log生成报告。
数据科学：与数据科学家共同搭建数据管道与可视化，对上千个数据点进行快速摘要分析。

这类“自举式”工作流会带来两个显著变化：其一，模型不只是被评测对象，也成为评测与迭代工具；其二，迭代速度可能从“人驱动”走向“人+模型共同驱动”，在同等人力下更快压缩研发周期。

2）网络安全：Preparedness Framework下的High capability与配套安全栈
GPT-5.3-Codex被描述为OpenAI在Preparedness Framework下第一个被标为High capability的网络安全模型，并且是第一个被直接训练来识别软件漏洞的模型。同时，OpenAI表示没有确定性证据证明其能够端到端自动化网络攻击，但仍采取预防性措施，部署“迄今最全面的网络安全安全栈”，包含：安全训练、自动监控、高级能力可信访问、执行管道与威胁情报等。

配套动作还包括：

Trusted Access for Cyber 试点项目，用于加速网络防御研究；
Aardvark（安全研究 Agent）扩大内测范围，作为Codex Security产品线的首个工具；
与开源项目合作提供免费代码扫描，并提到在Next.js中发现漏洞且已披露；
在2023年$1M网安资助计划基础上，追加10M USD的API credits，面向开源软件与关键基础设施安全研究。

3）可用性与渠道
GPT-5.3-Codex已在Codex app、CLI、IDE扩展、web等渠道可用；API访问仍在准备中，节奏表述为“soon”。Codex app下载地址：
https://persistent.oaistatic.com/codex-app-prod/Codex.dmg

结语：技术背后的管理思考

GPT-5.3-Codex的看点并不止于“跑分反超”或“写代码更快”，而是它把Agent能力从IDE扩展到终端、桌面与知识工作流，并通过更低token消耗与实时协作机制，显著改变了团队与工具之间的分工方式。对企业管理者与HR而言，这意味着岗位能力模型会被重新切分：一部分重复性实现、环境操作、问题定位将更容易被自动化；而需求澄清、架构权衡、安全边界设定、跨部门协同与结果负责的能力权重会上升。与此同时，“用Codex训练Codex”的自举式迭代也提示企业：AI不仅是应用层插件，更可能成为研发与运维体系的基础设施，驱动流程再造与效率跃迁。正如红海云在探索新一代人力资源管理解决方案时所强调的，技术的终极价值在于赋能组织——通过更清晰的人才画像、技能升级路径与数字化协作机制，把AI带来的产能增量稳定沉淀为组织效能。