【导读】Anthropic 推出 Claude Opus 4.6,对 Opus 系列进行一次面向“长任务、强代码、工具协作”的系统升级。新版本不仅在 Terminal-Bench 2.0、Humanity's Last Exam、GDPval-AA、BrowseComp、ARC AGI 2 等多项评测中刷新高分,还首次为 Opus 带来 1M token 上下文窗口(beta),并围绕长对话“context rot”问题给出更工程化的解法。同时,Claude Code 引入 Agent Teams(研究预览),叠加 API 侧的 Adaptive Thinking、Effort 控制与 Context Compaction(beta),使多Agent并行与持续执行更接近可落地的生产形态。
一、从“更强模型”到“更能干活”:Opus 4.6 的发布重点
这次 Opus 4.6 的信号很明确:不只追求单点能力提升,而是面向真实工作流的“长周期执行力”做增强,尤其聚焦在编码、工具调用、多步骤任务推进与长上下文稳定性上。
1)模型能力的整体升级方向
- 更会写代码:强调 Agentic coding 能力与多步编码任务的稳定完成度。
- 更能扛长任务:在更长对话、更长上下文、更长链路工具调用下,减少“越聊越跑偏”的现象。
- 更擅长自我检查:官方表述中提到模型更会检查自身错误,这通常意味着在推理与执行环节更重视一致性与校验。
2)Opus 首次支持 1M token 上下文窗口(beta)
1M token 的意义不只是“能装更多”,而是为更复杂的工程任务打开空间:大型代码库、多文档合并分析、跨多轮的需求—设计—实现—验证闭环,都更容易在同一上下文中持续推进。对依赖上下文管理的工具链(例如 Claude Code)而言,模型在自动上下文压缩之前可处理的工作量也随之提升。
3)全面上线与调用方式
Opus 4.6 已在 claude.ai、开发者平台与主要云平台可用;API 侧模型名为 claude-opus-4-6。这意味着企业在评估“新模型—旧模型”的切换成本时,更多会落在提示词、工具调用策略与长上下文治理上,而非部署可用性。

二、跑分与指标:从编码到搜索,再到“经济价值型知识工作”
围绕“是否真能在复杂工作中赢”,Opus 4.6 把多个维度的 benchmark 成绩摆到了台前,覆盖编码、推理、搜索与面向知识工作的综合对抗强度。
1)Terminal-Bench 2.0:Agentic coding 维度登顶
- Opus 4.6:65.4%
- GPT-5.2:64.7%
- Opus 4.5:59.8%
这一类评测更贴近“让模型像工具人/执行者一样完成任务”的真实形态,差距不一定巨大,但对追求稳定交付的开发场景,往往意味着更少的人工兜底和更高的任务一次通过率。
2)Humanity's Last Exam(带工具):复杂多学科推理领先
- Opus 4.6:53.1%(该测试中最高)
“带工具”是关键:当模型需要在外部检索、调用工具、跨步骤验证时,能力上限往往取决于规划、分解与纠错,而不仅是静态知识。
3)GDPval-AA:衡量“经济价值型知识工作”的 Elo 优势
该评测覆盖金融、法律等领域的知识工作任务,给出更接近“商业产出”语境的量化指标:
- Opus 4.6:1606 Elo
- GPT-5.2:1462 Elo
- Opus 4.5:1416 Elo
Elo 差距在这种体系里通常被解读为“对抗胜率”提升:在该评测语境下,Opus 4.6 相对 GPT-5.2 具备更高的胜率区间(素材中给出的口径约为 70% 概率)。
4)BrowseComp:搜索能力评测高分,并支持多 Agent 加成
- Opus 4.6:84.0%
- 多 Agent 框架后:86.8%
这类指标传递出一个趋势:搜索/检索不再只是“单模型一次性回答”,而更像“多个 Agent 分工检索—交叉验证—合并结论”的流水线,最终效果可以被协作结构继续放大。
5)ARC AGI 2:新问题求解能力大幅提升
- Opus 4.6:68.8%
- Opus 4.5:37.6%
如果把 ARC AGI 2 视为“面对新型题目/新规则的适应能力”,这种跃迁会让模型在非模板化任务中更具韧性:当问题不在训练分布的典型形态里时,仍能通过推理与试探找到可行路径。
三、长上下文的“context rot”与工程解法:1M token + Compaction + 更高 output
长对话与长任务的典型痛点,是模型在对话变长后出现的遗忘、前后不一致、约束丢失与质量下滑,这类现象常被概括为 context rot。Opus 4.6 针对这个问题给出的不仅是“窗口更大”,还包括评测成绩与配套机制。
1)MRCR v2 的 8-needle 1M token 变体:更能在长上下文里“找得到、用得上”
- Opus 4.6:76%
- Sonnet 4.5:18.5%
这类 “needle-in-a-haystack(大海捞针)” 测试强调的是:当关键信息被埋在海量 token 中,模型是否仍能稳定检索并正确引用,从而保持任务约束的一致性。分数差距意味着:长窗口不只是容量问题,更是注意力分配与信息保持能力的问题。
2)Context Compaction(beta):用“自动总结替换”延长任务寿命
当长任务逼近上下文天花板时,Context Compaction 会在接近阈值时自动总结并替换旧上下文,降低中断概率,让长周期 Agent 任务能继续跑下去。这属于典型的“工程化记忆管理”思路:让模型在有限上下文预算下尽可能保留任务状态、决策依据与未完成清单。
3)支持更长输出:最多 128K output tokens
在复杂编码、生成长文档、输出大段差异补丁(diff)、写完整测试与文档时,输出上限会成为生产可用性的硬约束。128K output tokens 让“把任务一次写完”更可行,但也意味着企业在成本控制、审阅机制与内容安全上要更精细化。
4)推理选项与价格机制
素材提到:提供“仅限美国推理”的选项(1.1 倍价格)。定价保持不变:25 per million tokens;超过 200K tokens 的长上下文采用 premium 定价(37.50)。在企业侧,这类梯度定价会直接影响“哪些任务值得上 Opus、哪些任务适合 Sonnet/更轻量模型”的路由策略。
四、从模型到产品:Claude Code 的 Agent Teams 与开发者API三项新能力
相比单次回答更强,Opus 4.6 更大的看点是“如何把能力变成可复用的工作流”。
1)Claude Code:Agent Teams(研究预览)
Agent Teams 允许同时启动多个 Agent,自主协调、并行工作,适用于可拆分的任务:
- 大型代码库 review
- 多模块重构与迁移
- 分支任务并行推进(实现/测试/文档/安全检查)
并且用户可以通过 Shift+Up/Down 或 tmux 直接接管某个子 Agent。这种设计更接近“人类作为调度/审阅者”的角色:不是替你写一段代码,而是组织一支可控的执行小队。
2)Adaptive Thinking(自适应思考)
过去开发者通常在 extended thinking 上做“开/关”二选一;现在模型可自行判断何时需要深度推理。默认 effort 为 high,在需要时自动进入更深的推理模式。对开发者而言,这减少了为不同任务手动切换模式的成本,但也对可观测性提出要求:什么时候触发更重的推理、代价是多少、收益是否匹配。
3)Effort 级别控制:low / medium / high / max
当模型在简单任务上“想太多”,可能导致延迟与 token 成本增加。Effort 控制提供了更细粒度的成本—质量调参手段,便于在批量任务、自动化流水线中设定策略。
4)Context Compaction(beta)作为 Agent 长跑的基础设施
多 Agent 并行会让上下文膨胀更快,Compaction 变成“多线程任务”能否持续推进的关键组件之一:它决定了任务状态如何被压缩、哪些信息必须保留、总结是否可逆与可追溯。

五、安全性与“不过度拒绝”:更强能力下的对齐与网络安全防线
模型能力增强往往伴随风险上升,尤其在网络安全、自动化脚本与工具调用层面。素材中给出的重点是:Opus 4.6 接受了更全面的安全评估,同时在“拒绝策略”上力求更可用。
1)更全面的安全评估框架
新增与强化的评估包括:
- 用户福祉评估
- 更复杂的拒绝危险请求测试
- 对模型“隐蔽行为(偷偷搞事)”的检测
结论是:Opus 4.6 的整体对齐水平与 Opus 4.5 持平(后者被描述为此前对齐最好的 Claude)。同时,在“过度拒绝”(明明合规却不回答)这一项,Opus 4.6 的表现被称为近期 Claude 模型里最佳。
2)网络安全能力提升后的“探测器”与防御应用
由于网络安全能力明显增强,官方为潜在滥用开发了 6 个新的网络安全探测器 用于追踪风险;同时也强调把能力用于防守:帮助开源软件找漏洞、打补丁。对企业而言,这意味着“安全团队的 AI 工具化”可能更快进入实操阶段,但配套审计与权限控制必须同步升级。

六、办公生产力场景:Claude in Excel 与 Claude in PowerPoint 打通链路
在“知识工作自动化”上,Anthropic 继续沿着 Office 场景扩展,并强调更复杂、更长任务的可执行性。
1)Claude in Excel:更长更难的表格任务与更丰富的操作能力
素材提到的增强点包括:
- 支持更长、更难任务
- 支持条件格式、数据验证等更丰富功能
- 一次操作完成多步修改
- 自动推断非结构化数据的结构
这类能力如果稳定,意味着 Excel 不只是“问答”,而是“可执行的表格操作 Agent”。
2)Claude in PowerPoint:研究预览,面向 Max/Team/Enterprise
PowerPoint 侧的亮点在于:能够读取布局、字体、母版并保持品牌风格一致,既可基于模板也可从文字描述生成整套幻灯片。与 Excel 结合后,形成“数据处理—生成叙事—输出汇报”的闭环工作流:先在 Excel 中处理数据,再在 PowerPoint 中自动生成演示。
结语:技术背后的管理思考
从 Opus 4.6 的更新路径可以看到,大模型竞争正在从“谁更聪明”转向“谁更能在组织里持续把事做完”:1M token 上下文窗口与对 context rot 的改进,让跨文档、跨多轮的复杂项目更有机会在同一任务线程中保持一致;Agent Teams 则把 AI 的形态进一步推向“可并行的数字劳动力”,让任务分解、协作、交接与人类接管成为默认能力。对企业管理者与 HR 来说,这会带来三点直接影响:其一,岗位技能结构会更强调“任务编排、工具调用、结果验收与风险控制”;其二,组织效率的瓶颈将更多来自流程与权限,而非单个员工的操作速度;其三,绩效与治理需要适配“人机共创”的交付方式,建立可追溯的过程记录与质量标准。正如红海云在探索新一代人力资源管理解决方案时所强调的,技术的终极价值在于赋能组织:把能力沉淀进流程、把协作固化为系统,让人才与 AI 在同一套治理框架下实现更稳定的规模化产出。




























































