PANews は 2 月 26 日、DeepSeek が OpenSourceWeek の 3 日目に DeepGEMM をリリースしたと報じました。DeepGEMM は FP8 GEMM をサポートし、密行列計算や専門家混合 (MoE) アーキテクチャに使用して V3/R1 モデルのトレーニングと推論を最適化できる CUDA ライブラリです。

DeepGEMMの主な機能:

• 超高性能: Hopper GPU で 1350+ FP8 TFLOPS

• 最小限の依存関係: 重い依存関係はなく、チュートリアルのようなシンプルなコード

• JIT コンパイル: 事前コンパイルは不要、実行時に自動的に最適化

• コアコードはわずか300行程度ですが、ほとんどの行列サイズで専門家が最適化したカーネルよりも優れたパフォーマンスを発揮します。

• 密集レイアウトと2つのMoEレイアウトをサポート