AI 评测平台 BridgeMind 发布测试结果称,Claude Opus 4.6 在 BridgeBench 幻觉基准测试中的准确率从上周的 83.3%(排名第 2)下降至 68.3%(排名第 10),降幅约 15 个百分点。推测认为模型推理能力遭到削弱,原因不明。
BridgeBench 公布的榜单显示,同期头部模型的准确率普遍在 80% 以上。BridgeMind 建议用户在新版本正式发布前暂缓部署,目前 Anthropic 尚未对上述测试结果作出回应。
BridgeMind
🌸 在花频道|茶馆讨论|投稿通道
via 科技圈🎗在花频道📮 - Telegram Channel