PANews 4月23日訊息,GitHub頁面顯示,DeepSeek 開源高效能GPU 算子庫TileKernels,該專案基於TileLang 開發。該函式庫針對大語言模型(LLM)的訓練與推理進行了深度優化,其算子性能已接近硬體計算強度與記憶體頻寬的極限。
TileKernels 涵蓋了MoE 路由、FP8/FP4 量化及多種融合算子,並已在DeepSeek 內部環境投入使用。該函式庫目前適配NVIDIA SM90 及最新的SM100(Blackwell)架構,運作環境要求CUDA 13.1 以上版本。

