DeepSeek 使用了比 CUDA 更底層的 Nvidia PTX 進行編程
2025年01月30日 7:15
DeepSeek 使用了比 CUDA 更底層的 Nvidia PTX 進行編程
DeepSeek 高效突破是通過實施大量細粒度優化和使用 Nvidia 的彙編式語言 PTX (并行線程執行) 編程而不是標準的 CUDA 實現的。PTX 是 Nvidia 為其 GPU 設計的中間指令集架構,位於高級 GPU 編程語言 (如 CUDA C/C++ 或其他語言前端) 和低級機器代碼 (流式彙編或 SASS) 之間。它將 GPU 公開為數據并行計算設備,因此允許細粒度優化,例如寄存器分配和線程/warp 級別調整,這是 CUDA C/C++ 和其他語言前端無法實現的。
在訓練其 V3 模型時,DeepSeek 重新配置了 H800 GPU:在 132 個流式多處理器中,它分配了 20 個用於伺服器間通信,可能用於壓縮和解壓數據,以克服處理器的連接限制並加快速度。為了最大限度地提高性能,DeepSeek 還實現了高級管道演算法,可能是通過進行超精細的線程/warp 級別調整。這些修改遠遠超出了標準 CUDA 級開發,維護起來非常困難,這種級別的優化反映了 DeepSeek 工程師的卓越技能。
- 🔥澳洲禁聞安卓APP,其它網站沒有的澳洲禁聞
- 🔥華人必看:中華文化的颶風 幸福感無法描述
- 🔥解鎖ChatGPT|全平台高速翻牆:高清視頻秒開,超低延遲
- 🔥免費PC翻牆、安卓VPN翻牆APP
- 🔥治國大道:修身、齊家、管理、治國的大智慧
轉自: 風向旗快訊