DeepSeek 使用了比 CUDA 更底層的 Nvidia PTX 進行編程

2025年01月30日 7:15

使用了比 CUDA 更底層的 PTX 進行編程

DeepSeek 高效突破是通過實施大量細粒度優化和使用 Nvidia 的彙編式語言 PTX (并行線程執行) 編程而不是標準的 CUDA 實現的。PTX 是 Nvidia 為其 GPU 設計的中間指令集架構,位於高級 GPU 編程語言 (如 CUDA C/C++ 或其他語言前端) 和低級機器代碼 (流式彙編或 SASS) 之間。它將 GPU 公開為數據并行計算設備,因此允許細粒度優化,例如寄存器分配和線程/warp 級別調整,這是 CUDA C/C++ 和其他語言前端無法實現的。

在訓練其 V3 模型時,DeepSeek 重新配置了 H800 GPU:在 132 個流式多處理器中,它分配了 20 個用於伺服器間通信,可能用於壓縮和解壓數據,以克服處理器的連接限制並加快速度。為了最大限度地提高性能,DeepSeek 還實現了高級管道演算法,可能是通過進行超精細的線程/warp 級別調整。這些修改遠遠超出了標準 CUDA 級開發,維護起來非常困難,這種級別的優化反映了 DeepSeek 工程師的卓越技能。

—— Tom’s Hardware

轉自: 風向旗快訊