DeepSeek 使用了比 CUDA 更底層的 Nvidia PTX 進行編程

2025年01月30日 7:15

DeepSeek 使用了比 CUDA 更底層的 Nvidia PTX 進行編程

DeepSeek 高效突破是通過實施大量細粒度優化和使用 Nvidia 的彙編式語言 PTX (并行線程執行) 編程而不是標準的 CUDA 實現的。PTX 是 Nvidia 為其 GPU 設計的中間指令集架構，位於高級 GPU 編程語言 (如 CUDA C/C++ 或其他語言前端) 和低級機器代碼 (流式彙編或 SASS) 之間。它將 GPU 公開為數據并行計算設備，因此允許細粒度優化，例如寄存器分配和線程/warp 級別調整，這是 CUDA C/C++ 和其他語言前端無法實現的。

在訓練其 V3 模型時，DeepSeek 重新配置了 H800 GPU：在 132 個流式多處理器中，它分配了 20 個用於伺服器間通信，可能用於壓縮和解壓數據，以克服處理器的連接限制並加快速度。為了最大限度地提高性能，DeepSeek 還實現了高級管道演算法，可能是通過進行超精細的線程/warp 級別調整。這些修改遠遠超出了標準 CUDA 級開發，維護起來非常困難，這種級別的優化反映了 DeepSeek 工程師的卓越技能。

—— Tom’s Hardware

轉自: 風向旗快訊

本文標籤：中國, 華人, 華人必看, 老闆

熱門標籤排行

DeepSeek 使用了比 CUDA 更底層的 Nvidia PTX 進行編程

熱門點擊日排行

熱門點擊周排行

熱門點擊月排行