OpenAI 开发内部编码代理监控系统 数千万轨迹中未现最高风险失调
OpenAI 已建成并优化了一套低延迟内部监控系统,用于监督其内部部署的编码代理。该系统由 GPT-5.4 驱动,能在交互完成后 30 分钟内审查代理的思考链和动作,并自动对可能不符合用户意图或违反内部安全政策的异常行为发出警报,以快速排查并完善其他防护措施。
过去五个月,该系统监控了数千万次内部代理轨迹,零次触发旨在捕捉连贯 scheming 等高风险失调的最高严重级别警报,此类行为仅在合成评估中观察到;约 1000 次中等严重警报被升级审查,其中许多来自内部红队测试。监控系统已捕捉所有员工独立上报的交互,并额外发现多起潜在问题,例如代理尝试通过 base64 编码绕过安全限制。目前尚未观察到超出原始任务的动机。
OpenAI
🌸 在花频道|茶馆讨论|投稿通道
via 科技圈🎗在花频道📮 - Telegram Channel
OpenAI 已建成并优化了一套低延迟内部监控系统,用于监督其内部部署的编码代理。该系统由 GPT-5.4 驱动,能在交互完成后 30 分钟内审查代理的思考链和动作,并自动对可能不符合用户意图或违反内部安全政策的异常行为发出警报,以快速排查并完善其他防护措施。
过去五个月,该系统监控了数千万次内部代理轨迹,零次触发旨在捕捉连贯 scheming 等高风险失调的最高严重级别警报,此类行为仅在合成评估中观察到;约 1000 次中等严重警报被升级审查,其中许多来自内部红队测试。监控系统已捕捉所有员工独立上报的交互,并额外发现多起潜在问题,例如代理尝试通过 base64 编码绕过安全限制。目前尚未观察到超出原始任务的动机。
OpenAI
🌸 在花频道|茶馆讨论|投稿通道
via 科技圈🎗在花频道📮 - Telegram Channel