OpenAI今日发布了GPT‑5.1-Codex-Max,这是一款面向长时间运行任务设计的新一代Agentic编码模型。相较于之前的模型,GPT‑5.1-Codex-Max采用了“压缩(compaction)”技术,可在多个上下文窗口间工作,甚至能在单次任务中可靠处理百万级别的Token。OpenAI表示,该模型不仅性能提升,还实现了更快、更高效的Token利用率。
据了解,GPT‑5.1-Codex-Max训练过程涵盖了真实世界的软件工程任务,如PR创建、代码评审、前端开发及问答等,并在众多前沿编程评测中表现超越此前的模型。例如,该模型在SWE-Bench Verified(样本数500)上获得77.9%的得分,在SWE-Lancer IC SWE测评中达到79.9%,在TerminalBench 2.0测评中则取得58.1%的成绩,均高于GPT-5.1-Codex此前的表现。
除支持Unix平台外,GPT‑5.1-Codex-Max还专门针对Windows环境进行了训练。在复杂重构及长时间运行的agent循环中,大多数市面上的编码模型受限于上下文窗口,难以持续工作。而GPT‑5.1-Codex-Max能够在接近窗口限制时自动压缩会话内容,从而自主运行数小时甚至数十小时。据OpenAI内部测试数据显示,该模型可持续运行超过24小时。
此外,得益于推理能力提升,GPT‑5.1-Codex-Max在SWE-Bench Verified上完成相同任务时,使用的思考Token比GPT-5.1-Codex减少了30%。通过“Extra High(xhigh)”推理模式,模型在复杂任务中可投入更深入的思考。
目前,GPT‑5.1-Codex-Max已在Codex CLI、IDE扩展、云端和代码评审等产品中上线,支持ChatGPT Plus、Pro、Business、Edu和Enterprise高级订阅用户。同时,OpenAI也将于近期将该模型引入API,并在Codex中替换为默认模型。
via cnBeta.COM - 中文业界资讯站 (author: 稿源:cnBeta.COM)