OpenAI发布了其最新模型GPT-4o Mini,该模型采用了一种名为“指令层级”的新安全技术,旨在阻止臭名昭著的“忽略所有先前指令”漏洞。这种方法优先考虑原始开发者的提示,而不是试图操控人工智能响应的用户命令。OpenAI的Olivier Godement确认,这一增强功能专门设计用来抵御在线常见的提示注入攻击。
引入指令层级标志着朝着开发能够安全管理用户在线活动的全自动数字代理迈出了重要一步。研究表明,现有的大型语言模型(LLMs)在区分用户和系统指令方面存在困难;然而,新方法在训练模型时赋予系统消息更高的重要性,同时使其忽略不一致的提示。
此更新是在围绕人工智能技术持续存在安全担忧之际推出的,此前一些现任和前任员工发出公开信,呼吁提高OpenAI内部透明度和安全实践。由于过去的问题导致公众对公司的信任下降,这些进展对于恢复信心至关重要,因为他们正在为更广泛应用其技术做准备。
(The Verge)
via 老裕泰 - Telegram Channel