Claude Opus 4.6 上线：1M token 长上下文与Agent Teams齐发|红海eHR

【导读】Anthropic 推出 Claude Opus 4.6，对 Opus 系列进行一次面向“长任务、强代码、工具协作”的系统升级。新版本不仅在 Terminal-Bench 2.0、Humanity's Last Exam、GDPval-AA、BrowseComp、ARC AGI 2 等多项评测中刷新高分，还首次为 Opus 带来 1M token 上下文窗口（beta），并围绕长对话“context rot”问题给出更工程化的解法。同时，Claude Code 引入 Agent Teams（研究预览），叠加 API 侧的 Adaptive Thinking、Effort 控制与 Context Compaction（beta），使多Agent并行与持续执行更接近可落地的生产形态。

一、从“更强模型”到“更能干活”：Opus 4.6 的发布重点

这次 Opus 4.6 的信号很明确：不只追求单点能力提升，而是面向真实工作流的“长周期执行力”做增强，尤其聚焦在编码、工具调用、多步骤任务推进与长上下文稳定性上。

1）模型能力的整体升级方向

更会写代码：强调 Agentic coding 能力与多步编码任务的稳定完成度。
更能扛长任务：在更长对话、更长上下文、更长链路工具调用下，减少“越聊越跑偏”的现象。
更擅长自我检查：官方表述中提到模型更会检查自身错误，这通常意味着在推理与执行环节更重视一致性与校验。

2）Opus 首次支持 1M token 上下文窗口（beta）
1M token 的意义不只是“能装更多”，而是为更复杂的工程任务打开空间：大型代码库、多文档合并分析、跨多轮的需求—设计—实现—验证闭环，都更容易在同一上下文中持续推进。对依赖上下文管理的工具链（例如 Claude Code）而言，模型在自动上下文压缩之前可处理的工作量也随之提升。

3）全面上线与调用方式
Opus 4.6 已在 claude.ai、开发者平台与主要云平台可用；API 侧模型名为 claude-opus-4-6。这意味着企业在评估“新模型—旧模型”的切换成本时，更多会落在提示词、工具调用策略与长上下文治理上，而非部署可用性。

二、跑分与指标：从编码到搜索，再到“经济价值型知识工作”

围绕“是否真能在复杂工作中赢”，Opus 4.6 把多个维度的 benchmark 成绩摆到了台前，覆盖编码、推理、搜索与面向知识工作的综合对抗强度。

1）Terminal-Bench 2.0：Agentic coding 维度登顶

Opus 4.6：65.4%
GPT-5.2：64.7%
Opus 4.5：59.8%

这一类评测更贴近“让模型像工具人/执行者一样完成任务”的真实形态，差距不一定巨大，但对追求稳定交付的开发场景，往往意味着更少的人工兜底和更高的任务一次通过率。

2）Humanity's Last Exam（带工具）：复杂多学科推理领先

Opus 4.6：53.1%（该测试中最高）

“带工具”是关键：当模型需要在外部检索、调用工具、跨步骤验证时，能力上限往往取决于规划、分解与纠错，而不仅是静态知识。

3）GDPval-AA：衡量“经济价值型知识工作”的 Elo 优势
该评测覆盖金融、法律等领域的知识工作任务，给出更接近“商业产出”语境的量化指标：

Opus 4.6：1606 Elo
GPT-5.2：1462 Elo
Opus 4.5：1416 Elo

Elo 差距在这种体系里通常被解读为“对抗胜率”提升：在该评测语境下，Opus 4.6 相对 GPT-5.2 具备更高的胜率区间（素材中给出的口径约为 70% 概率）。

4）BrowseComp：搜索能力评测高分，并支持多 Agent 加成

Opus 4.6：84.0%
多 Agent 框架后：86.8%

这类指标传递出一个趋势：搜索/检索不再只是“单模型一次性回答”，而更像“多个 Agent 分工检索—交叉验证—合并结论”的流水线，最终效果可以被协作结构继续放大。

5）ARC AGI 2：新问题求解能力大幅提升

Opus 4.6：68.8%
Opus 4.5：37.6%

如果把 ARC AGI 2 视为“面对新型题目/新规则的适应能力”，这种跃迁会让模型在非模板化任务中更具韧性：当问题不在训练分布的典型形态里时，仍能通过推理与试探找到可行路径。

三、长上下文的“context rot”与工程解法：1M token + Compaction + 更高 output

长对话与长任务的典型痛点，是模型在对话变长后出现的遗忘、前后不一致、约束丢失与质量下滑，这类现象常被概括为 context rot。Opus 4.6 针对这个问题给出的不仅是“窗口更大”，还包括评测成绩与配套机制。

1）MRCR v2 的 8-needle 1M token 变体：更能在长上下文里“找得到、用得上”

Opus 4.6：76%
Sonnet 4.5：18.5%

这类 “needle-in-a-haystack（大海捞针）” 测试强调的是：当关键信息被埋在海量 token 中，模型是否仍能稳定检索并正确引用，从而保持任务约束的一致性。分数差距意味着：长窗口不只是容量问题，更是注意力分配与信息保持能力的问题。

2）Context Compaction（beta）：用“自动总结替换”延长任务寿命
当长任务逼近上下文天花板时，Context Compaction 会在接近阈值时自动总结并替换旧上下文，降低中断概率，让长周期 Agent 任务能继续跑下去。这属于典型的“工程化记忆管理”思路：让模型在有限上下文预算下尽可能保留任务状态、决策依据与未完成清单。

3）支持更长输出：最多 128K output tokens
在复杂编码、生成长文档、输出大段差异补丁（diff）、写完整测试与文档时，输出上限会成为生产可用性的硬约束。128K output tokens 让“把任务一次写完”更可行，但也意味着企业在成本控制、审阅机制与内容安全上要更精细化。

4）推理选项与价格机制
素材提到：提供“仅限美国推理”的选项（1.1 倍价格）。定价保持不变：25 per million tokens；超过 200K tokens 的长上下文采用 premium 定价（37.50）。在企业侧，这类梯度定价会直接影响“哪些任务值得上 Opus、哪些任务适合 Sonnet/更轻量模型”的路由策略。

四、从模型到产品：Claude Code 的 Agent Teams 与开发者API三项新能力

相比单次回答更强，Opus 4.6 更大的看点是“如何把能力变成可复用的工作流”。

1）Claude Code：Agent Teams（研究预览）
Agent Teams 允许同时启动多个 Agent，自主协调、并行工作，适用于可拆分的任务：

大型代码库 review
多模块重构与迁移
分支任务并行推进（实现/测试/文档/安全检查）

并且用户可以通过 Shift+Up/Down 或 tmux 直接接管某个子 Agent。这种设计更接近“人类作为调度/审阅者”的角色：不是替你写一段代码，而是组织一支可控的执行小队。

2）Adaptive Thinking（自适应思考）
过去开发者通常在 extended thinking 上做“开/关”二选一；现在模型可自行判断何时需要深度推理。默认 effort 为 high，在需要时自动进入更深的推理模式。对开发者而言，这减少了为不同任务手动切换模式的成本，但也对可观测性提出要求：什么时候触发更重的推理、代价是多少、收益是否匹配。

3）Effort 级别控制：low / medium / high / max
当模型在简单任务上“想太多”，可能导致延迟与 token 成本增加。Effort 控制提供了更细粒度的成本—质量调参手段，便于在批量任务、自动化流水线中设定策略。

4）Context Compaction（beta）作为 Agent 长跑的基础设施
多 Agent 并行会让上下文膨胀更快，Compaction 变成“多线程任务”能否持续推进的关键组件之一：它决定了任务状态如何被压缩、哪些信息必须保留、总结是否可逆与可追溯。

五、安全性与“不过度拒绝”：更强能力下的对齐与网络安全防线

模型能力增强往往伴随风险上升，尤其在网络安全、自动化脚本与工具调用层面。素材中给出的重点是：Opus 4.6 接受了更全面的安全评估，同时在“拒绝策略”上力求更可用。

1）更全面的安全评估框架
新增与强化的评估包括：

用户福祉评估
更复杂的拒绝危险请求测试
对模型“隐蔽行为（偷偷搞事）”的检测

结论是：Opus 4.6 的整体对齐水平与 Opus 4.5 持平（后者被描述为此前对齐最好的 Claude）。同时，在“过度拒绝”（明明合规却不回答）这一项，Opus 4.6 的表现被称为近期 Claude 模型里最佳。

2）网络安全能力提升后的“探测器”与防御应用
由于网络安全能力明显增强，官方为潜在滥用开发了 6 个新的网络安全探测器 用于追踪风险；同时也强调把能力用于防守：帮助开源软件找漏洞、打补丁。对企业而言，这意味着“安全团队的 AI 工具化”可能更快进入实操阶段，但配套审计与权限控制必须同步升级。

六、办公生产力场景：Claude in Excel 与 Claude in PowerPoint 打通链路

在“知识工作自动化”上，Anthropic 继续沿着 Office 场景扩展，并强调更复杂、更长任务的可执行性。

1）Claude in Excel：更长更难的表格任务与更丰富的操作能力
素材提到的增强点包括：

支持更长、更难任务
支持条件格式、数据验证等更丰富功能
一次操作完成多步修改
自动推断非结构化数据的结构

这类能力如果稳定，意味着 Excel 不只是“问答”，而是“可执行的表格操作 Agent”。

2）Claude in PowerPoint：研究预览，面向 Max/Team/Enterprise
PowerPoint 侧的亮点在于：能够读取布局、字体、母版并保持品牌风格一致，既可基于模板也可从文字描述生成整套幻灯片。与 Excel 结合后，形成“数据处理—生成叙事—输出汇报”的闭环工作流：先在 Excel 中处理数据，再在 PowerPoint 中自动生成演示。

结语：技术背后的管理思考

从 Opus 4.6 的更新路径可以看到，大模型竞争正在从“谁更聪明”转向“谁更能在组织里持续把事做完”：1M token 上下文窗口与对 context rot 的改进，让跨文档、跨多轮的复杂项目更有机会在同一任务线程中保持一致；Agent Teams 则把 AI 的形态进一步推向“可并行的数字劳动力”，让任务分解、协作、交接与人类接管成为默认能力。对企业管理者与 HR 来说，这会带来三点直接影响：其一，岗位技能结构会更强调“任务编排、工具调用、结果验收与风险控制”；其二，组织效率的瓶颈将更多来自流程与权限，而非单个员工的操作速度；其三，绩效与治理需要适配“人机共创”的交付方式，建立可追溯的过程记录与质量标准。正如红海云在探索新一代人力资源管理解决方案时所强调的，技术的终极价值在于赋能组织：把能力沉淀进流程、把协作固化为系统，让人才与 AI 在同一套治理框架下实现更稳定的规模化产出。



HR数字化产品

国央企单位
State owned enterprise units

银行金融

高新科技

消费品

服饰行业

餐饮行业

能源矿业

制造行业

生物医药

Claude Opus 4.6 上线：1M token 长上下文与Agent Teams齐发

一、从“更强模型”到“更能干活”：Opus 4.6 的发布重点

二、跑分与指标：从编码到搜索，再到“经济价值型知识工作”

三、长上下文的“context rot”与工程解法：1M token + Compaction + 更高 output

四、从模型到产品：Claude Code 的 Agent Teams 与开发者API三项新能力

五、安全性与“不过度拒绝”：更强能力下的对齐与网络安全防线

六、办公生产力场景：Claude in Excel 与 Claude in PowerPoint 打通链路

结语：技术背后的管理思考

相关标签

热门文章

最新文章

Claude Opus 4.6 上线：1M token 长上下文与Agent Teams齐发

一、从“更强模型”到“更能干活”：Opus 4.6 的发布重点

二、跑分与指标：从编码到搜索，再到“经济价值型知识工作”

三、长上下文的“context rot”与工程解法：1M token + Compaction + 更高 output

四、从模型到产品：Claude Code 的 Agent Teams 与开发者API三项新能力

五、安全性与“不过度拒绝”：更强能力下的对齐与网络安全防线

六、办公生产力场景：Claude in Excel 与 Claude in PowerPoint 打通链路

结语：技术背后的管理思考

相关标签

相关文章推荐

信创HR数字化落地全流程：从系统选型到上线运维的工具与平台推荐

热门文章

最新文章