↩️🖼 美国 CAISI 发布 DeepSeek V4 Pro 评估报告,称 DeepSeek V4 Pro 能力落后美国前沿约 8 个月


科技圈🎗在花频道📮:

🤖 DeepSeek-V4 的预览版本正式上线并同步开源,极其便宜大碗且适配 Agent 相比前代模型,DeepSeek-V4-Pro 的 Agent 能力显著增强。在数学、STEM、竞赛型代码的测评中,DeepSeek-V4-Pro 超越当前所有已公开评测的开源模型,追及「御三家」模型能力。 DeepSeek-V4-Flash 展现出了接近高级模型的的推理能力与 Agent 能力(适合日常龙虾等服务)。而由于模型参数和激活更小,相较之下 V4-Flash 能够提供更加快捷、经济的 API 服务。 DeepSeek…

美国 CAISI 发布 DeepSeek V4 Pro 评估报告,称 DeepSeek V4 Pro 能力落后美国前沿约 8 个月

美国国家标准与技术研究院(NIST)下属人工智能标准与创新中心(CAISI)评估显示,中国开源模型 DeepSeek V4 Pro 在综合能力上比美国最先进模型落后约 8 个月。在 CAISI 选取的基准中,其 Elo 得分 800,低于 GPT-5.5(999)和 Opus 4.6(800),与 GPT-5.4 mini(749)相近。尤其在 ARC-AGI-2、PortBench 和 CTF-Archive-Diamond 等代理与推理测试上表现较弱。但成本方面,与相近能力的 GPT-5.4 mini 相比,DeepSeek V4 Pro 在 7 个基准中的 5 个上成本更低。

NIST

🌸 在花频道 · 茶馆讨论 · 投稿通道

via 科技圈🎗在花频道📮 - Telegram Channel
 
 
Back to Top
Copyright © 2025 BESTAI. All rights reserved.
BEST AI API中转 - OpenAI DeepSeek Claude Gemini Grok MidJourney API 2.8折起
[email protected]