3月5日发布于arXiv的论文《真金白银,虚假模型:影子API中的欺骗性模型声明》对17个被187篇学术论文使用的第三方中转API进行系统审计。论文将此类服务界定为通过间接方式调用官方大模型接口、并在部分受限地区提供访问的第三方API服务 。研究围绕性能表现、安全行为及模型身份一致性开展多维度评估。
结果显示,在24个被评估端点中,45.83%未通过模型指纹验证,另有12.50%存在显著偏差。性能测试表明,在医学与法律等高风险基准上,部分第三方中转API准确率明显低于官方接口。例如在MedQA测试中,Gemini-2.5-flash模型通过官方API准确率为83.82%,经相关接口调用后平均降至约36.95%。论文指出,上述差异可能影响科研结果的可复现性与应用可靠性 。
arXiv
🍀在花频道 🍵茶馆聊天 📮投稿
via 科技圈🎗在花频道📮 - Telegram Channel