英伟达发布重大更新 CUDA 13.1改写GPU编程范式
AI导读:
英伟达发布CUDA 13.1重大更新,引入全新编程模型CUDA Tile,让开发者可以用Python写GPU内核。这一更新可能改变GPU编程范式,降低AI底层开发门槛。
近日,英伟达CUDA迎来重大更新,正式推出NVIDIA CUDA 13.1,该公司AI开发者账号在社媒平台自我评价称:“这是20年来最大的一次更新。”
《中国经营报》记者了解到,全新的编程模型CUDA Tile是CUDA 13.1最核心的更新,它让开发者可以用Python写GPU内核,15行代码就能达到200行CUDA C++代码的性能。
需要注意的是,CUDA Tile目前仅支持采用英伟达Blackwell架构的GPU产品,未来的CUDA版本将扩展支持更多架构的产品。多年以来,CUDA被称为英伟达稳固的护城河,然而,随着CUDA Tile编程模型的发布,引起了业界关于英伟达“护城河”是否会被削弱的讨论。
对此,曾主导设计AMD Zen架构芯片、苹果A系列芯片等知名芯片的架构师Jim Keller发帖称:“英伟达是要终结自己的护城河?如果英伟达像大多数其他硬件(公司那样)转向Tile模型,那AI内核将更容易移植。”
言下之意,不像过去的CUDA C++那样高度绑定英伟达硬件,CUDA Tile这种新的编程模型将改写GPU编程范式,开发者用Python代码可直接生成高效GPU内核,大大降低AI底层开发门槛,这可能会给AMD、Intel或新兴AI芯片公司提供切入机会。
“现在来看,底层更新对于应用基本没影响。”AI算法专家、资深人工智能从业者黄颂如此表示。他拥有丰富的CUDA生态应用开发经验,日常使用如PyTorch这些基于CUDA的高层库。黄颂进一步指出,短期内还看不到CUDA 13.1对于应用开发的积极影响,“传导需要时间,应用有更高层的接口。”黄颂表示。
据了解,CUDA的全称是Compute Unified Device Architecture(统一计算设备架构),是英伟达在2006年推出的一套并行计算平台和编程模型。
对于CUDA,一般开发者接触最多的是CUDA Toolkit(CUDA工具包),它是使用CUDA的核心载体,包含编译器、运行时API/驱动API、基础数学库(cuBLAS/cuFFT/cuDNN)等组件;CUDA已成为高性能计算和AI领域的“标配”,且仅支持英伟达GPU。
过去近20年,CUDA一直采用SIMT(单指令多线程)模型,开发者写代码时,需要手动管理线程索引、线程块、共享内存布局、线程同步,每一个细节都要自己操心。想要充分利用GPU性能,特别是用上Tensor Core这类专用模块,更是需要深厚的经验积累。
英伟达解释说,CUDA Tile可让开发者在高于SIMT的层级编写GPU核函数。在目前的SIMT编程中,开发者通常通过划分数据并定义每个线程的执行路径来指定核函数。
而借助CUDA Tile,开发者可以提升代码的抽象层级,直接指定被称为Tile的数据块。只需指定要在这些Tile上执行的数学运算,编译器和运行时环境会自动决定将工作负载分发到各个线程的最佳方式。
为此,英伟达构建了两个用于Tile编程的核心组件:一是CUDA Tile IR,一种用于英伟达GPU编程的全新虚拟指令集架构(ISA);二是cuTile Python,一种新的领域特定语言(DSL),用于在Python中编写基于数组和Tile的核函数。
此外,此次CUDA 13.1的更新还包括运行时对Green Context(绿色上下文)的支持、CUDA 多进程服务(MPS)更新等。
经过近20年的发展,英伟达已经在全球拥有500多万的CUDA生态开发者...
郑重声明:以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息,本站对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至yxiu_cn@foxmail.com,我们将安排核实处理。

