🚀 DeepSeek 发布 V3.2-Exp 实验版本,引入稀疏注意力机制提升长上下文效率
DeepSeek-AI 正式发布了 DeepSeek-V3.2-Exp 实验版本,作为其迈向下一代架构的中间步骤。该版本在 V3.1-Terminus 基础上引入了 DeepSeek 稀疏注意力(DSA)机制,旨在探索和验证长上下文场景下的训练和推理效率优化。新版本在保持与 V3.1-Terminus 几乎相同模型输出质量的同时,显著提升了长上下文处理的计算效率。在 MMLU-Pro、GPQA-Diamond 等推理任务以及代码生成和工具使用等多个公开基准测试中,V3.2-Exp 的表现与 V3.1-Terminus 相当。线上版本已更新。
(科技圈)
via 茶馆 - Telegram Channel
DeepSeek-AI 正式发布了 DeepSeek-V3.2-Exp 实验版本,作为其迈向下一代架构的中间步骤。该版本在 V3.1-Terminus 基础上引入了 DeepSeek 稀疏注意力(DSA)机制,旨在探索和验证长上下文场景下的训练和推理效率优化。新版本在保持与 V3.1-Terminus 几乎相同模型输出质量的同时,显著提升了长上下文处理的计算效率。在 MMLU-Pro、GPQA-Diamond 等推理任务以及代码生成和工具使用等多个公开基准测试中,V3.2-Exp 的表现与 V3.1-Terminus 相当。线上版本已更新。
(科技圈)
via 茶馆 - Telegram Channel