DeepSeek發布DeepGEMM：高效FP8 GEMM庫，優化V3/R1訓練與推理

PA一线｜2025-02-26 9:41

PANews 2月26日訊息，DeepSeek在其開源週（OpenSourceWeek）第三天推出DeepGEMM，一個支援FP8 GEMM 的CUDA庫，可用於稠密矩陣計算和混合專家（MoE）架構，優化V3/R1模型的訓練和推理。

DeepGEMM 關鍵特性：

• 超高效能：在Hopper GPU上實現1350+ FP8 TFLOPS

• 極簡依賴：無繁重依賴，程式碼簡潔如教學

• JIT即時編譯：無需預先編譯，執行時自動最佳化

• 核心程式碼僅約300行，但在大多數矩陣尺寸下效能超越專家級最佳化內核

• 支援稠密佈局和兩種MoE佈局

作者：PA一线
本內容只為提供市場資訊，不構成投資建議。

評論

精選專題更多