🚀 DeepSeek-V3硬件效率揭秘:PTX优化绕过CUDA限制
DeepSeek-V3的硬件效率据称比Meta等高出10倍,关键在于其“从头开始重建一切”。分析显示,DeepSeek团队在使用英伟达H800 GPU训练时,将132个流式多处理器(SMs)中的20个修改为负责服务器间通信,而非计算任务,从而绕过了硬件对通信速度的限制。他们使用英伟达的PTX语言而非CUDA进行编程,PTX允许进行细粒度的优化,但编程复杂且难以维护。尽管PTX是CUDA编程模型中的中间表示,DeepSeek的PTX优化不意味着完全脱离CUDA生态,但表明其有优化其他GPU的能力。此外,DeepSeek-R1大模型已展现出编写底层代码的能力,例如在llama.cpp项目中,其编写的SIMD指令代码显著提升了WebAssembly的运行速度。
(IT业界资讯)via
茶馆 - Telegram Channel