“DeepSeek 甚至绕过了英伟达 CUDA”,论文细节再引热议

英伟达刚刚从 DeepSeek-R1 引发的 4 万亿元暴跌中缓过劲来,又面临新的压力?“DeepSeek 甚至绕过了英伟达 CUDA”,论文细节再引热议休闲区蓝鸢梦想 - Www.slyday.coM硬件媒体 Tom's Hardware 带来开年最新热议:DeepSeek 甚至绕过了 CUDA,使用更底层的编程语言做优化。“DeepSeek 甚至绕过了英伟达 CUDA”,论文细节再引热议休闲区蓝鸢梦想 - Www.slyday.coM这一次是 DeepSeek-V3 论文中的更多细节,被人挖掘出来。来自 Mirae Asset Securities Research(韩国未来资产证券)的分析称,V3 的硬件效率之所以能比 Meta 等高出 10 倍,可以总结为“他们从头开始重建了一切”。在使用英伟达的 H800 GPU 训练 DeepSeek-V3 时,他们针对自己的需求把 132 个流式多处理器(SMs)中的 20 个修改成负责服务器间的通信,而不是计算任务。变相绕过了硬件对通信速度的限制。“DeepSeek 甚至绕过了英伟达 CUDA”,论文细节再引热议休闲区蓝鸢梦想 - Www.slyday.coM这种操作是用英伟达的 PTX(Parallel Thread Execution)语言实现的,而不是 CUDA。PTX 在接近汇编语言的层级运行,允许进行细粒度的优化,如寄存器分配和 Thread / Warp 级别的调整。这种编程非常复杂且难以维护,所以行业通用的做法是使用 CUDA 这样的高级编程语言。换句话说,他们把优化做到了极致。有网友表示,如果有一群人嫌 CUDA 太慢而使用 PTX,那一定是前量化交易员。“DeepSeek 甚至绕过了英伟达 CUDA”,论文细节再引热议休闲区蓝鸢梦想 - Www.slyday.coM一位亚马逊工程师提出灵魂质问:CUDA 是否还是护城河?这种顶尖实验室可以有效利用任何 GPU。“DeepSeek 甚至绕过了英伟达 CUDA”,论文细节再引热议休闲区蓝鸢梦想 - Www.slyday.coM甚至有网友开始畅想,如果“新源神”DeepSeek 开源了一个 CUDA 替代方案……“DeepSeek 甚至绕过了英伟达 CUDA”,论文细节再引热议休闲区蓝鸢梦想 - Www.slyday.coM那么事情是否真会如此?首先要明确的是,PTX 仍然是英伟达 GPU 架构中的技术,它是 CUDA 编程模型中的中间表示,用于连接 CUDA 高级语言代码和 GPU 底层硬件指令。PTX 类似汇编语言,代码大概长这样:“DeepSeek 甚至绕过了英伟达 CUDA”,论文细节再引热议休闲区蓝鸢梦想 - Www.slyday.coM在实际编译流程中,CUDA 代码首先被编译为 PTX 代码,PTX 代码再被编译为目标 GPU 架构的机器码(SASS,Streaming ASSembler)。CUDA 起到了提供高级编程接口和工具链的作用,可以简化开发者的工作。而 PTX 作为中间层,充当高级语言和底层硬件之间的桥梁。另外,这种两步编译流程也使得 CUDA 程序具有跨架构的兼容性和可移植性。反过来说,像 DeepSeek 这种直接编写 PTX 代码的做法,首先不仅非常复杂,也很难移植到不同型号的 GPU。有从业者表示,针对 H100 优化的代码迁移到其他型号上可能效果打折扣,也可能根本不工作了。“DeepSeek 甚至绕过了英伟达 CUDA”,论文细节再引热议休闲区蓝鸢梦想 - Www.slyday.coM所以说,DeepSeek 做了 PTX 级别的优化不意味着完全脱离了 CUDA 生态,但确实代表他们有优化其他 GPU 的能力。事实上,我们也能看到 DeepSeek 已经与 AMD、华为等团队紧密合作,第一时间提供了对其他硬件生态的支持。“DeepSeek 甚至绕过了英伟达 CUDA”,论文细节再引热议休闲区蓝鸢梦想 - Www.slyday.coM还有人提出,如此一来,让 AI 擅长编写汇编语言是 AI 自我改进的一个方向。“DeepSeek 甚至绕过了英伟达 CUDA”,论文细节再引热议休闲区蓝鸢梦想 - Www.slyday.coM我们不知道 DeepSeek 内部是否使用 AI 辅助编写了 PTX 代码 —— 但是确实刚刚见证 DeepSeek-R1 编写的代码显著提升大模型推理框架的运行速度。Llama.cpp 项目中的一个新 PR 请求,使用 SIMD 指令(允许一条指令同时处理多个数据)显著提升 WebAssembly 在特定点积函数上的运行速度,提交者表示:“DeepSeek 甚至绕过了英伟达 CUDA”,论文细节再引热议休闲区蓝鸢梦想 - Www.slyday.coMllama.cpp 项目的创始人检查了这段代码后表示“比预期的更爆炸”。“DeepSeek 甚至绕过了英伟达 CUDA”,论文细节再引热议休闲区蓝鸢梦想 - Www.slyday.coM参考链接:
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,蓝鸢梦想所有文章均包含本声明。

相关推荐

  • 友情链接:
  • PHPCMSX
  • 智慧景区
  • 微信扫一扫

    微信扫一扫
    返回顶部

    显示

    忘记密码?

    显示

    显示

    获取验证码

    Close