🛡️ OpenAI 强化 ChatGPT Atlas 安全防御：利用自动化红队演练对抗提示词注入攻击OpenAI 近期发布了针对 ChatGPT Atlas 浏览器代理模式的安全更新，旨在持续加固其防御“提示词注入”（Prompt Injection）攻击的能力

🛡️ OpenAI 强化 ChatGPT Atlas 安全防御：利用自动化红队演练对抗提示词注入攻击

OpenAI 近期发布了针对 ChatGPT Atlas 浏览器代理模式的安全更新，旨在持续加固其防御“提示词注入”（Prompt Injection）攻击的能力。作为目前功能最通用的智能体功能之一，Atlas 能够像人类一样在浏览器中执行查看网页、点击和输入等操作，但这种高度的自主性也使其成为了恶意攻击的高价值目标。提示词注入攻击通过在网页、邮件或文档中嵌入恶意指令，试图劫持智能体的行为，使其背离用户意图。例如，当用户要求智能体总结邮件时，隐藏在邮件中的恶意指令可能诱导智能体将敏感的税务文件转发至攻击者的邮箱，这种威胁超出了传统的网络安全范畴，直接针对 AI 决策逻辑。

为了应对这一长期且复杂的挑战，OpenAI 构建了一套基于大语言模型的自动化红队演练系统。该系统利用强化学习（RL）训练了一个“自动化攻击者”，使其能够模拟人类攻击者的适应性，通过不断的尝试与反馈来发现新型攻击策略。与以往仅能触发简单错误的操作不同，这种经过强化学习训练的攻击者能够引导智能体执行长达数十步甚至上百步的复杂有害工作流。在一次内部演示中，攻击者通过一封恶意邮件成功诱导智能体在用户要求撰写“办公室自动回复”时，转而向首席执行官发送了一封辞职信。这种端到端的攻击发现能力，让 OpenAI 能够在威胁出现在现实世界之前就预先识别并修复漏洞。

OpenAI 强调，这种“发现即修复”的快速响应闭环是其防御体系的核心。一旦自动化红队发现新的攻击路径，开发团队会立即利用这些数据对模型进行对抗性训练，并将防御逻辑固化到模型检查点中。目前的更新已向所有 Atlas 用户推送，显著提升了模型对复杂攻击的抵抗力。尽管提示词注入如同网络诈骗一样难以被彻底“解决”，但通过结合白盒访问权限、深度防御栈及计算规模优势，OpenAI 致力于让 AI 代理像安全意识强的同事一样可靠。同时，官方也建议用户在非必要时使用退出登录模式，并仔细审核智能体执行关键操作前的确认请求，通过明确的指令范围来进一步降低潜在风险。

(@OpenAI)

via 茶馆 - Telegram Channel