一位AI安全初创公司创始人发文称,尽管基准测试分数不断提高,但自2024年8月左右Claude 3.5 Sonnet模型发布带来显著性能飞跃后,后续包括Claude 3.6(带来轻微提升)、Claude 3.7(提升更小)以及OpenAI的测试模型在内的新模型,在其公司复杂的代码库安全审计应用场景中并未带来实质性的改进。该公司成立于2024年6月,目前主要依赖Claude 3.7 Sonnet。作者指出,其公司的进展更多源于工程优化而非模型升级,且与其他AI应用初创公司交流发现,许多创始人也有类似体验:新模型基准亮眼,实际应用效果平平。
文章分析,这种现象可能源于:
1. 基准测试的局限性: 现有基准(尤其在安全领域)多为标准化测试式的、可在数百token内解决的短任务,未能有效衡量模型在处理大型代码库、推理复杂安全模型、长期记忆和执行现实世界复杂任务(如作者提到的应用安全测试)方面的通用能力和经济实用性。作者更倾向于关注如“Claude玩宝可梦”这类长时任务基准及个人使用体验。
2. 模型“对齐”问题: 模型可能被训练得倾向于“听起来聪明”而非严格遵循指令或承认无知,导致在实际应用中产生误导性输出(如报告无法利用的“潜在”问题),这在构建复杂系统时成为严重障碍。
3. 基准被“污染”或过度优化: 存在AI实验室为追求排名、投资和人才而过度优化甚至操纵基准结果的可能性,尽管有反驳意见认为存在真实进步(如Kagi的私有基准),但对公开基准的信任度降低。
作者认为,近期AI模型在完成全新任务或替代更大部分人类智力劳动方面的进展有限,对当前宣称的进步速度持怀疑态度,并指出未来硬件(如Nvidia Blackwell芯片)的部署可能带来改变。
(HackerNews)
via 茶馆 - Telegram Channel