How confessions can keep language models honestvia OpenAI News | ChatGPT / AI新闻聚合

02:13 · 2025年12月4日 · 周四

How confessions can keep language models honest

via OpenAI News

How confessions can keep language models honest

人工智能系统能力在持续提升，我们也希望尽可能深入地理解它们——包括它们如何以及为何给出某个答案。有时模型会走捷径或优化到错误的目标，但最终输出看上去仍然正确。如果能把这些情况暴露出来，就能更好地监控上线系统、改进训练并提高对输出的信任度。包括 OpenAI 在内的研究表明，模型会出现幻觉、利用奖励漏洞或不诚实。在目前阶段，我们在压力测试和对抗性评估中才观测到最令人担忧的失控行为（例如所谓的 scheming）。但随着模型变得更强大、更具主体性，即便是罕见的错配也可能造成严重后果，这促使我们投入资源开发…

免费GPT聊天

Best AI API中转2.8折起

Best AI 服务状态

Powered by BroadcastChannel & Sepia

Copyright © 2025 BESTAI. All rights reserved.
BEST AI API中转 - OpenAI DeepSeek Claude Gemini Grok MidJourney API 2.8折起
 [email protected]