首页 / 文章 / cuTile Rust:在Rust中编写安全的GPU内核
← 返回
AI技术

cuTile Rust:在Rust中编写安全的GPU内核

✍️ zhirenhun 📅 2026/6/17 👁 49 阅读 ⏱ 18 分钟
cuTile Rust:在Rust中编写安全的GPU内核

<!-- # cuTile Rust -->

<div align="center">

<img src="assets/logo.svg" alt="cuTile Rust" width="380">

[](https://crates.io/crates/cutile) [](https://github.com/NVlabs/cutile-rs/actions/workflows/pr.yml) [](https://nvlabs.github.io/cutile-rs/)

</div>

cuTile Rust (cutile-rs) 是一个基于 tile 的系统,用于在惯用的 Rust 中编写内存安全、无数据竞争的 GPU 内核。它将 Rust 的所有权规则扩展到 GPU 启动边界:在启动前,可变张量被分割成不相交的片段,不可变张量被共享,生成的启动器在 GPU 工作执行期间保留所有权。同一模型支持同步启动、异步流水线和 CUDA 图重放。#[cutile::module] 宏将每个内核的捕获的 Rust AST 嵌入到宿主二进制文件中;当需要内核时,cuTile Rust 通过 CUDA Tile IR 将该 AST JIT 编译为 GPU cubin。当需要底层控制时,仍可进行局部退出。

项目状态

我们很高兴发布这个研究项目,以展示如何在 Rust 生态系统中实现 GPU 编程。该软件处于早期阶段,正在积极开发中:您应该预期会遇到错误、不完整的功能和 API 变更,因为我们正在努力改进它。尽管如此,我们希望您有兴趣在自己的工作中尝试它,并通过提供您的使用体验反馈来帮助塑造其发展方向。

如果您有兴趣贡献,请查看 CONTRIBUTING.md

快速开始

use cutile::prelude::*;

#[cutile::module]
mod kernel {
    use cutile::core::*;

    #[cutile::entry()]
    fn add<const B: i32>(
        z: &mut Tensor<f32, { [B] }>,
        x: &Tensor<f32, { [-1] }>,
        y: &Tensor<f32, { [-1] }>,
    ) {
        let tx = load_tile_like(x, z);
        let ty = load_tile_like(y, z);
        z.store(tx + ty);
    }
}

fn main() -> Result<(), Error> {
    let x = api::ones::<f32>(&[1024]);
    let y = api::ones::<f32>(&[1024]);
    let z = api::zeros::<f32>(&[1024]).partition([128]);

    let (_z, _x, _y) = kernel::add(z, x, y).sync()?;
    Ok(())
}

#[cutile::module] 宏将 add 转换为 GPU 内核并生成宿主端启动器。宿主代码构造惰性张量操作,将可变输出分割成 128 元素的块,并调用 .sync() 来 JIT 编译和执行内核。

内核签名将访问规则带入设备代码:z 是独占的可变输出,而 xy 是共享的只读输入。函数体加载与输出分区匹配的输入 tile,将它们相加,并存储结果。启动网格 (8, 1, 1) 从分区推断得出:1024÷128 = 8 个 tile。

  • 通过 cargo run -p cutile-examples --example saxpy 运行类似示例。
  • 更多内核和宿主端 API 的使用示例可在 此处 找到。

论文

cuTile Rust 论文 Fearless Concurrency on the GPU 可在 此处 获取。在 NVIDIA B200 上,cuTile Rust 在逐元素操作中达到 7 TB/s,在 GEMM 中达到 2 PFlop/s,分别约为峰值内存带宽的 91% 和密集 f16 峰值的 92%。GEMM 结果与 cuBLAS 相当,B200 安全开销微基准测试表明,cuTile Rust 在添加安全性的同时没有可测量的运行时开销:在 M=N=K=8192 时,安全的 Rust 持久化 GEMM 达到 2.07 PFlop/s(B200 密集 f16 峰值的 92%),与相应的底层 Tile IR 变体相差在 0.3% 以内。

该论文还评估了 Grout,一个与 Hugging Face 合作使用 cuTile Rust 构建的 Qwen3 推理引擎。在 batch-1 Qwen3 解码中,Grout 在 NVIDIA GeForce RTX 5090 上达到 171 tokens/s(Qwen3-4B),在 B200 上达到 82 tokens/s(Qwen3-32B),根据我们的 HBM roofline 分析,在内存受限的推理任务上展示了具有竞争力的最先进性能。

论文评估的可重现性工件可在 此处 获取。论文中的测量是针对 cuTile Rust 0.2.0 运行的,论文中使用的 Grout 版本可在 此处 获取。

引用

如果您在研究中使用 cuTile Rust,请引用该论文:

@misc{elibol2026fearlessconcurrencygpu,
  title = {Fearless Concurrency on the GPU},
  author = {Elibol, Melih and Roesch, Jared and Gelado, Isaac and Buehler, Eric and Garland, Michael},
  year = {2026},
  eprint = {2606.15991},
  archivePrefix = {arXiv},
  primaryClass = {cs.PL},
  url = {https://arxiv.org/abs/2606.15991}
}

相关项目和参考

  • Grout:Hugging Face 使用 cuTile Rust 构建的 Rust Qwen 3 推理引擎,可作为生产内核调用点的参考。
  • cuTile Python:使用 CUDA Tile 进行 Python 内核编程。
  • TileGym:CUDA Tile 内核示例和调优模式。
  • cuda-oxide:NVlabs 实验性 Rust 到 CUDA 编译器,用于在 Rust 中编写 SIMT 风格的 GPU 内核。
  • CUDA Tile IR 文档:CUDA Tile IR 参考文档。
  • CUDA 文档:CUDA 工具包文档。
  • Rust NVPTX 后端:rustc 对生成 NVIDIA GPU PTX 的目标支持。

cuTile Rust 针对通过 CUDA Tile IR 降级的基于 tile 的内核,其 API 围绕张量分区和张量核心导向操作构建。

设置

### 要求

  • NVIDIA GPU,计算能力为 sm_80 或更高(最低支持架构:sm_80)。
  • sm_100+ 由 CUDA 13.1+ 支持。
  • sm_8x 支持在 CUDA 13.2 中添加。
  • CUDA 13.3 添加了 sm_90 支持,因此 CUDA 13.3 用户现在拥有 sm_80+ 覆盖范围。
  • CUDA 推荐 13.3(sm_80+ 支持和 CUDA Tile IR 13.3 功能,如 FP4 打包和块缩放 MMA)。
  • Rust 1.89+
  • Linux(在 Ubuntu 24.04 上测试)

### 安装

#### Rust

安装 Rust:

curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh
rustup default stable

#### CUDA

按照官方说明为您的操作系统安装 CUDA 13.3: https://developer.nvidia.com/cuda-downloads

### 配置环境

CUDA_TOOLKIT_PATH 设置为您的 CUDA 13.3 安装目录。

示例 .cargo/config.toml

[env]
CUDA_TOOLKIT_PATH = { value = "/usr/local/cuda-13", relative = false }

### 验证安装

运行 hello world 示例:

cargo run -p cutile-examples --example hello_world

如果一切正常,您应该看到:Hello, I am tile <0, 0, 0> in a kernel with <1, 1, 1> tiles.

通过 Nix 使用

我们提供了一个 Nix flake 以便于设置和开发。如果尚未启用,必须在您的 Nix 配置中启用 Flakes,添加到 ~/.config/nix/nix.conf

experimental-features = nix-command flakes

直接运行命令:

nix develop -c cargo run -p cutile-examples --example saxpy

或打开交互式 shell:

nix develop
# cutile-rs dev shell
#  ✓ CUDA  /nix/store/...-cuda-toolkit-13.3
#  ✓ Rust  1.90.0-nightly

该 flake 会自动在 NixOS 和非 NixOS 系统上定位宿主 NVIDIA 驱动库。

测试

  • cuTile IR:cargo test --package cutile-ir
  • cuTile Rust 编译器:cargo test --package cutile-compiler
  • cuTile Rust 库:cargo test --package cutile
  • 示例:运行单个示例,例如 cargo run -p cutile-examples --example async_gemm
  • 基准测试:cargo bench
  • 全部:./scripts/run_all.sh(或通过管道输出到日志文件:./scripts/run_all.sh 2>&1 | tee test_run.log

### 工作区 Crates

cutile                 面向用户的 crate,用于编写和执行 tile 内核
├── cutile-macro
├── cutile-compiler
├── cuda-async
└── cuda-core

cutile-kernels         可重用的 cuTile Rust 内核
└── cutile

cutile-macro           cuTile Rust proc-macro
└── cutile-compiler

cutile-compiler        将 cuTile Rust 内核编译为可执行文件
├── cutile-ir
├── cuda-async
└── cuda-core

cutile-ir              纯 Rust Tile IR 构建器和字节码写入器

cuda-async             通过异步 Rust 实现异步 CUDA 执行
└── cuda-core

cuda-core              惯用的安全 CUDA API
└── cuda-bindings

cuda-bindings          NVIDIA CUDA 绑定

许可证

cuda-bindings crate 根据 NVIDIA 软件许可证授权:LICENSE-NVIDIA。 所有其他 crate 根据 Apache 许可证 2.0 版授权 https://www.apache.org/licenses/LICENSE-2.0

原文出处链接:https://github.com/NVlabs/cutile-rs


原文出处:https://github.com/nvlabs/cutile-rs

🧑‍💻

zhirenhun

一个热爱技术的程序员,喜欢分享前沿AI知识和开发经验。

GPU Rust CUDA NVIDIA 编程
← 上一篇
羞辱IIS服务器:有趣但可能面临牢狱之灾
下一篇 →
Lore:为极致扩展性而生的下一代开源版本控制系统

📌 相关推荐

📄
Rhombus 1.0 正式发布
2026/6/24
📄
艾尔登法环的低技术AI
2026/6/24
提示注入的理论基础:角色混淆(Prompt Injection as Role Confusion)
2026/6/23
← 返回文章列表