https://t.me/AI_News_CN
📈主流AI服务状态页通知 | 🆕汇集全网ChatGPT/AI新闻 #AI #ChatGPT
🆓免费AI聊天 https://free.netfly.top
✨BEST AI中转 https://api.oaibest.com 2.8折起 支持OpenAI, Claude code, Gemini,Grok, Deepseek, Midjourney, 文件上传分析
Buy ads: https://telega.io/c/AI_News_CN
📈主流AI服务状态页通知 | 🆕汇集全网ChatGPT/AI新闻 #AI #ChatGPT
🆓免费AI聊天 https://free.netfly.top
✨BEST AI中转 https://api.oaibest.com 2.8折起 支持OpenAI, Claude code, Gemini,Grok, Deepseek, Midjourney, 文件上传分析
Buy ads: https://telega.io/c/AI_News_CN
OpenAI今日发布了GPT‑5.1-Codex-Max,这是一款面向长时间运行任务设计的新一代Agentic编码模型。相较于之前的模型,GPT‑5.1-Codex-Max采用了“压缩(compaction)”技术,可在多个上下文窗口间工作,甚至能在单次任务中可靠处理百万级别的Token。OpenAI表示,该模型不仅性能提升,还实现了更快、更高效的Token利用率。
据了解,GPT‑5.1-Codex-Max训练过程涵盖了真实世界的软件工程任务,如PR创建、代码评审、前端开发及问答等,并在众多前沿编程评测中表现超越此前的模型。例如,该模型在SWE-Bench Verified(样本数500)上获得77.9%的得分,在SWE-Lancer IC SWE测评中达到79.9%,在TerminalBench 2.0测评中则取得58.1%的成绩,均高于GPT-5.1-Codex此前的表现。
除支持Unix平台外,GPT‑5.1-Codex-Max还专门针对Windows环境进行了训练。在复杂重构及长时间运行的agent循环中,大多数市面上的编码模型受限于上下文窗口,难以持续工作。而GPT‑5.1-Codex-Max能够在接近窗口限制时自动压缩会话内容,从而自主运行数小时甚至数十小时。据OpenAI内部测试数据显示,该模型可持续运行超过24小时。
此外,得益于推理能力提升,GPT‑5.1-Codex-Max在SWE-Bench Verified上完成相同任务时,使用的思考Token比GPT-5.1-Codex减少了30%。通过“Extra High(xhigh)”推理模式,模型在复杂任务中可投入更深入的思考。
目前,GPT‑5.1-Codex-Max已在Codex CLI、IDE扩展、云端和代码评审等产品中上线,支持ChatGPT Plus、Pro、Business、Edu和Enterprise高级订阅用户。同时,OpenAI也将于近期将该模型引入API,并在Codex中替换为默认模型。
via cnBeta.COM - 中文业界资讯站 (author: 稿源:cnBeta.COM)
根据知情人士透露,在Meta Platforms Inc.领导一个研究实验室的人工智能先驱Yann LeCun计划宣布离开这家社交媒体巨头,并创办一家新公司。
知情人士透露,自2013年起就在Meta任职的LeCun最快将于本周宣布这一消息。一位了解安排的知情人士表示,Meta计划与LeCun就他的初创公司展开合作,但具体细节仍在敲定中。
据知情人士透露,LeCun创建的新公司将专注于他对联合嵌入预测架构(JEPA)世界模型的愿景。该模型基于视觉和其他感官信息进行训练,使其能够对物理世界进行预测。
Meta公司的一位发言人证实LeCun即将离职。LeCun本人未立即回应置评请求。
LeCun被誉为人工智能行业的“教父”之一。他在Meta的工作重点是长期人工智能研究,其中许多研究在数年甚至数十年后才会对消费者体验产生影响。据知情人士透露,由于Meta公司更专注于构建模型以应对OpenAI、谷歌和Anthropic PBC等竞争对手的直接威胁,LeCun在Meta的项目较难获得所需资源。
英国《金融时报》此前曾报道称LeCun计划创办一家初创公司。
via cnBeta.COM - 中文业界资讯站 (author: 稿源:环球市场播报)
GPT-5.1-Codex-Max System Card
GPT‑5.1-Codex-Max 是我们最新一代具有 agentic 能力的编程代理模型。它建立在我们对基础推理模型的更新之上,该模型在软件工程、数学、科研、医学、计算机使用等多个领域的 agentic 任务上接受训练。它也是我们首个通过名为 compaction 的过程原生训练、能够在多个上下文窗口间协同工作的模型,能在单项任务中连贯处理数百万个标记。像以往型号一样, GPT‑5.1-Codex-Max 在真实世界的软件工程任务上接受训练,包括 PR 创建、代码审查、前端开发和 Q&A。
该系统说明概述了为 GPT‑5.1-Codex-Max 实施的全面安全措施。内容既包括模型层面的缓解手段——例如针对有害任务和 prompt injections 的专项安全训练——也包括产品层面的防护措施,如 agent sandboxing 和可配置的网络访问。
我们在 Preparedness Framework 下对 GPT‑5.1-Codex-Max 进行了评估。该模型在网络安全领域能力很强,但尚未达到网络安全方面的 High capability 水平。我们预计能力迅速提升的态势将持续,模型在不久的将来可能跨越这一门槛。与其他近期模型一样,它在生物学领域被视为 High capability ,并部署了与我们对 GPT‑5 使用的相应防护套件。它在 AI 自我改进方面则未达到 High capability 。
----------------------
Introduction
GPT‑5.1-Codex-Max is our new frontier agentic coding model. It is built on an update to our foundational reasoning model trained on agentic tasks across software engineering, math, research, medicine, computer use and more. It is our first model natively trained to operate across multiple context windows through a process called compaction, coherently working over millions of tokens in a single task. Like its predecessors, GPT‑5.1-Codex-Max was trained on real-world software engineering tasks like PR creation, code review, frontend coding and Q&A.
This system card outlines the comprehensive safety measures implemented for GPT‑5.1-CodexMax. It details both model-level mitigations, such as specialized safety training for harmful tasks and prompt injections, and product-level mitigations like agent sandboxing and configurable network access.
GPT‑5.1-Codex-Max was evaluated under our Preparedness Framework. It is very capable in the cybersecurity domain but does not reach High capability on cybersecurity. We expect current trends of rapidly increasing capability to continue, and for models to cross the High cybersecurity threshold in the near future. Like other recent models, it is being treated as High capability on biology, and is being deployed with the corresponding suite of safeguards we use for GPT‑5. It does not reach High capability on AI self-improvement.
via OpenAI News
GPT‑5.1-Codex-Max 是我们最新一代具有 agentic 能力的编程代理模型。它建立在我们对基础推理模型的更新之上,该模型在软件工程、数学、科研、医学、计算机使用等多个领域的 agentic 任务上接受训练。它也是我们首个通过名为 compaction 的过程原生训练、能够在多个上下文窗口间协同工作的模型,能在单项任务中连贯处理数百万个标记。像以往型号一样, GPT‑5.1-Codex-Max 在真实世界的软件工程任务上接受训练,包括 PR 创建、代码审查、前端开发和 Q&A。
该系统说明概述了为 GPT‑5.1-Codex-Max 实施的全面安全措施。内容既包括模型层面的缓解手段——例如针对有害任务和 prompt injections 的专项安全训练——也包括产品层面的防护措施,如 agent sandboxing 和可配置的网络访问。
我们在 Preparedness Framework 下对 GPT‑5.1-Codex-Max 进行了评估。该模型在网络安全领域能力很强,但尚未达到网络安全方面的 High capability 水平。我们预计能力迅速提升的态势将持续,模型在不久的将来可能跨越这一门槛。与其他近期模型一样,它在生物学领域被视为 High capability ,并部署了与我们对 GPT‑5 使用的相应防护套件。它在 AI 自我改进方面则未达到 High capability 。
----------------------
Introduction
GPT‑5.1-Codex-Max is our new frontier agentic coding model. It is built on an update to our foundational reasoning model trained on agentic tasks across software engineering, math, research, medicine, computer use and more. It is our first model natively trained to operate across multiple context windows through a process called compaction, coherently working over millions of tokens in a single task. Like its predecessors, GPT‑5.1-Codex-Max was trained on real-world software engineering tasks like PR creation, code review, frontend coding and Q&A.
This system card outlines the comprehensive safety measures implemented for GPT‑5.1-CodexMax. It details both model-level mitigations, such as specialized safety training for harmful tasks and prompt injections, and product-level mitigations like agent sandboxing and configurable network access.
GPT‑5.1-Codex-Max was evaluated under our Preparedness Framework. It is very capable in the cybersecurity domain but does not reach High capability on cybersecurity. We expect current trends of rapidly increasing capability to continue, and for models to cross the High cybersecurity threshold in the near future. Like other recent models, it is being treated as High capability on biology, and is being deployed with the corresponding suite of safeguards we use for GPT‑5. It does not reach High capability on AI self-improvement.
via OpenAI News