DeepSeek 旗下高性能算子库 DeepGEMM 于 2026 年 4 月 16 日发布重大更新,正式推出 Mega MoE 融合算子。该算子通过将 dispatch、SwiGLU 等多个计算步骤与 NVLink 通信重叠,实现了计算与通信的高效融合。此外,本次更新还新增了 FP8xFP4 GEMM 算子、FP4 Indexer 以及 PDL(程序化依赖启动)支持,并显著提升了 JIT 编译速度。
DeepGEMM 是专为现代大模型设计的 CUDA 内核库,支持 NVIDIA SM90 和 SM100 架构。其核心优势在于轻量化设计与运行时即时编译,无需在安装阶段进行复杂编译。目前,该库已在 H800 等显卡上展现出极高的算力利用率,其 Mega MoE 算子通过对称内存技术进一步优化了多专家模型在推理和训练中的性能表现。
deepseek-ai | LyricZhao
🌸 在花频道|茶馆讨论|投稿通道
via 科技圈🎗在花频道📮 - Telegram Channel