CUDA 13.2 将基于图块的 GPU 编程扩展至较旧的架构,添加了 Python 性能分析工具,并通过新的 Top-K 算法实现高达 5 倍的速度提升。(阅读CUDA 13.2 将基于图块的 GPU 编程扩展至较旧的架构,添加了 Python 性能分析工具,并通过新的 Top-K 算法实现高达 5 倍的速度提升。(阅读

NVIDIA CUDA 13.2 更新:今日最新 CUDA 消息(Ampere 与 Ada GPU)

2026/03/30 07:00
阅读时长 9 分钟
如需对本内容提供反馈或相关疑问,请通过邮箱 [email protected] 联系我们。

NVIDIA CUDA 13.2 更新:今日最新 CUDA 新闻(Ampere 与 Ada GPU)

Iris Coleman 2026年3月30日 07:00

CUDA 13.2 将基于图块的 GPU 编程扩展至较旧的架构,添加了 Python 分析工具,并通过新的 Top-K 算法提供高达 5 倍的速度提升。

NVIDIA CUDA 13.2 更新:今日最新 CUDA 新闻(Ampere 与 Ada GPU)

今日最新 CUDA 新闻:NVIDIA 扩展 CUDA 生态系统

今日 CUDA 新闻:重点摘要

NVIDIA 正在将 CUDA 访问扩展至第三方平台,这标志着使其 GPU 计算生态系统对全球开发者更易访问的重要一步。

  • CUDA 现已在更多第三方平台上可用
  • CUDA 生态系统扩展超越传统环境
  • 为开发者和企业提高可访问性
  • 加强对基于云端和分布式计算的支持

这对开发者和 AI 公司意味着什么

CUDA 扩展至第三方平台降低了开发者和企业的准入门槛。它实现了更灵活的部署选项,并减少了对特定硬件环境的依赖。

主要优势包括:

  • 更轻松地在不同平台上部署 AI 应用程序
  • 减少初创企业和企业的基础设施限制
  • 在云端和混合环境中具有更大的灵活性
  • 加快 AI 和 GPU 驱动应用程序的创新

预计此举将加速 CUDA 在多个行业的采用。

NVIDIA 的 CUDA 13.2 版本将其基于图块的编程模型扩展至 Ampere 和 Ada 架构,将该公司所称的二十年来最大的平台更新带到了更广泛的硬件基础上。此次更新还引入了原生 Python 分析功能和新算法,为特定工作负载提供高达 5 倍的性能改进。

以前仅限于 Blackwell 级 GPU,CUDA Tile 现在支持计算能力 8.X 架构(Ampere 和 Ada),以及现有的 10.X 和 12.X 支持。NVIDIA 表示,未来的工具包版本将把全面支持扩展至所有从 Ampere 开始的 GPU 架构,可能涵盖数百万已部署的专业和消费级 GPU。

Python 获得一流待遇

此版本显著扩展了 Python 工具。cuTile Python,即 NVIDIA 图块编程模型的 DSL 实现,现在支持递归函数、带捕获的闭包、lambda 函数和自定义归约操作。安装已简化为单个 pip 命令,可拉取所有依赖项,无需安装系统级 CUDA Toolkit。

名为 Nsight Python 的新分析界面直接为 Python 开发者带来内核分析。使用装饰器,开发者可以自动配置、分析和绘制跨多个配置的内核性能比较。该工具通过标准 Python 数据结构公开性能数据以进行自定义分析。

对于调试工作流程来说可能更重要的是:Numba-CUDA 内核现在首次可以在实际 GPU 硬件上进行调试。开发者可以使用 CUDA-GDB 或 Nsight Visual Studio Code Edition 设置断点、逐步执行语句并检查程序状态。

算法性能提升

CUDA 核心计算库(CCCL)3.2 版本引入了几种优化算法。新的 cub::DeviceTopK 在从数据集中选择 K 个最大或最小元素时,相比完整基数排序提供高达 5 倍的速度提升——这是推荐系统和搜索应用程序中的常见操作。

固定大小的分段归约显示出更显著的改进:与现有的基于偏移量的实现相比,小段大小快高达 66 倍,大段快 14 倍。cuSOLVER 库添加了利用 INT8 吞吐量的 FP64 仿真计算,当矩阵大小接近 80K 时,在 B200 系统上的 QR 分解实现高达 2 倍的性能提升。

企业和嵌入式更新

从驱动程序版本 R595 开始,Windows 计算驱动程序现在默认为 MCDM 而非 TCC 模式。此更改解决了一些系统在启动时显示错误的兼容性问题。MCDM 启用了 WSL2 支持、原生容器兼容性以及以前保留给 WDDM 模式的高级内存管理 API。NVIDIA 承认 MCDM 目前的提交延迟略高于 TCC,正在努力缩小这一差距。

对于嵌入式系统,相同的 Arm SBSA CUDA Toolkit 现在可在所有 Arm 目标上运行,包括 Jetson Orin 设备。Jetson Thor 获得了多实例 GPU 支持,允许集成 GPU 分区为两个隔离实例——对于需要将安全关键的电机控制与较重的感知工作负载分离的机器人应用程序很有用。

该工具包现已通过 NVIDIA 的开发者门户提供。使用 Ampere、Ada 或 Blackwell GPU 的开发者可以访问 cuTile Python 快速入门指南,开始尝试基于图块的编程。

CUDA 生态系统扩展解释

CUDA 长期以来一直是 NVIDIA GPU 计算策略的基石。通过将其可用性扩展至第三方平台,NVIDIA 正在加强其生态系统并巩固其在 AI 和高性能计算市场的地位。

这种扩展允许开发者在更多环境中利用 CUDA,使其成为更通用和广泛采用的平台。

它还反映了行业向开放和灵活的计算生态系统发展的更广泛趋势。

相关 CUDA 新闻和更新

有关 CUDA 发展的更多更新,请查看最新新闻:

  • NVIDIA CUDA 13.2 为 Ampere 和 Ada GPU 扩展图块编程

随着 NVIDIA 继续扩展其 GPU 计算能力,请继续关注今日更多 CUDA 新闻。

常见问题:今日 CUDA 新闻

今日最新的 CUDA 版本是什么?

最新的 CUDA 版本是 CUDA 13.2,它为 Ampere 和 Ada 架构引入了图块编程和 GPU 效率的改进。

CUDA 13.2 有什么变化?

CUDA 13.2 添加了增强的基于图块的编程、更好的内存优化,以及对 AI 和高性能计算工作负载的改进支持。

哪些 GPU 支持 CUDA 13.2?

CUDA 13.2 针对 NVIDIA Ampere 和 Ada GPU 进行了优化,确保与现代硬件的性能改进和兼容性。

CUDA 13.2 适合 AI 工作负载吗?

是的,CUDA 13.2 通过优化 GPU 利用率和减少训练时间,显著提高了 AI 和机器学习性能。

NVIDIA 多久更新一次 CUDA?

NVIDIA 每年定期更新 CUDA 数次,提供新功能、性能改进和扩展的硬件支持。

我可以在哪里下载 CUDA 更新?

您可以从 NVIDIA 官方网站或通过支持 CUDA 的开发者平台下载最新的 CUDA 更新。

图片来源:Shutterstock
  • nvidia
  • cuda
  • gpu 计算
  • ai 开发
  • python
市场机遇
爱达币 图标
爱达币实时价格 (ADA)
$0.2482
$0.2482$0.2482
+2.81%
USD
爱达币 (ADA) 实时价格图表
免责声明: 本网站转载的文章均来源于公开平台,仅供参考。这些文章不代表 MEXC 的观点或意见。所有版权归原作者所有。如果您认为任何转载文章侵犯了第三方权利,请联系 [email protected] 以便将其删除。MEXC 不对转载文章的及时性、准确性或完整性作出任何陈述或保证,并且不对基于此类内容所采取的任何行动或决定承担责任。转载材料仅供参考,不构成任何商业、金融、法律和/或税务决策的建议、认可或依据。