PANews 2月26日訊息,DeepSeek在其開源週(OpenSourceWeek)第三天推出DeepGEMM,一個支援FP8 GEMM 的CUDA庫,可用於稠密矩陣計算和混合專家(MoE)架構,優化V3/R1模型的訓練和推理。
DeepGEMM 關鍵特性:
• 超高效能:在Hopper GPU上實現1350+ FP8 TFLOPS
• 極簡依賴:無繁重依賴,程式碼簡潔如教學
• JIT即時編譯:無需預先編譯,執行時自動最佳化
• 核心程式碼僅約300行,但在大多數矩陣尺寸下效能超越專家級最佳化內核
• 支援稠密佈局和兩種MoE佈局