第三方评测称 Claude Opus 4.6 幻觉率大幅上升，排名从第二跌至第十AI 评测平台 BridgeMind 发布测试结果称，Claude Opus 4.6 在 BridgeBench 幻觉基准测试中的准确率从上周的 83.3%（排名第 2）下降至 68.3%（排名第 10），降幅约 15 个百分点

第三方评测称 Claude Opus 4.6 幻觉率大幅上升，排名从第二跌至第十

AI 评测平台 BridgeMind 发布测试结果称，Claude Opus 4.6 在 BridgeBench 幻觉基准测试中的准确率从上周的 83.3%（排名第 2）下降至 68.3%（排名第 10），降幅约 15 个百分点。推测认为模型推理能力遭到削弱，原因不明。

BridgeBench 公布的榜单显示，同期头部模型的准确率普遍在 80% 以上。BridgeMind 建议用户在新版本正式发布前暂缓部署，目前 Anthropic 尚未对上述测试结果作出回应。

BridgeMind

🌸 在花频道｜茶馆讨论｜投稿通道

via 科技圈🎗在花频道📮 - Telegram Channel