第九便利

[](https://crates.io/crates/cutile) [](https://github.com/NVlabs/cutile-rs/actions/workflows/pr.yml) [](https://nvlabs.github.io/cutile-rs/)

</div>

cuTile Rust (cutile-rs) 是一个基于 tile 的系统，用于在惯用的 Rust 中编写内存安全、无数据竞争的 GPU 内核。它将 Rust 的所有权规则扩展到 GPU 启动边界：在启动前，可变张量被分割成不相交的片段，不可变张量被共享，生成的启动器在 GPU 工作执行期间保留所有权。同一模型支持同步启动、异步流水线和 CUDA 图重放。#[cutile::module] 宏将每个内核的捕获的 Rust AST 嵌入到宿主二进制文件中；当需要内核时，cuTile Rust 通过 CUDA Tile IR 将该 AST JIT 编译为 GPU cubin。当需要底层控制时，仍可进行局部退出。

项目状态

我们很高兴发布这个研究项目，以展示如何在 Rust 生态系统中实现 GPU 编程。该软件处于早期阶段，正在积极开发中：您应该预期会遇到错误、不完整的功能和 API 变更，因为我们正在努力改进它。尽管如此，我们希望您有兴趣在自己的工作中尝试它，并通过提供您的使用体验反馈来帮助塑造其发展方向。

如果您有兴趣贡献，请查看 CONTRIBUTING.md。

快速开始

use cutile::prelude::*;

#[cutile::module]
mod kernel {
    use cutile::core::*;

    #[cutile::entry()]
    fn add<const B: i32>(
        z: &mut Tensor<f32, { [B] }>,
        x: &Tensor<f32, { [-1] }>,
        y: &Tensor<f32, { [-1] }>,
    ) {
        let tx = load_tile_like(x, z);
        let ty = load_tile_like(y, z);
        z.store(tx + ty);
    }
}

fn main() -> Result<(), Error> {
    let x = api::ones::<f32>(&[1024]);
    let y = api::ones::<f32>(&[1024]);
    let z = api::zeros::<f32>(&[1024]).partition([128]);

    let (_z, _x, _y) = kernel::add(z, x, y).sync()?;
    Ok(())
}

#[cutile::module] 宏将 add 转换为 GPU 内核并生成宿主端启动器。宿主代码构造惰性张量操作，将可变输出分割成 128 元素的块，并调用 .sync() 来 JIT 编译和执行内核。

内核签名将访问规则带入设备代码：z 是独占的可变输出，而 x 和 y 是共享的只读输入。函数体加载与输出分区匹配的输入 tile，将它们相加，并存储结果。启动网格 (8, 1, 1) 从分区推断得出：1024÷128 = 8 个 tile。

通过 cargo run -p cutile-examples --example saxpy 运行类似示例。
更多内核和宿主端 API 的使用示例可在此处找到。

论文

cuTile Rust 论文 Fearless Concurrency on the GPU 可在此处获取。在 NVIDIA B200 上，cuTile Rust 在逐元素操作中达到 7 TB/s，在 GEMM 中达到 2 PFlop/s，分别约为峰值内存带宽的 91% 和密集 f16 峰值的 92%。GEMM 结果与 cuBLAS 相当，B200 安全开销微基准测试表明，cuTile Rust 在添加安全性的同时没有可测量的运行时开销：在 M=N=K=8192 时，安全的 Rust 持久化 GEMM 达到 2.07 PFlop/s（B200 密集 f16 峰值的 92%），与相应的底层 Tile IR 变体相差在 0.3% 以内。

该论文还评估了 Grout，一个与 Hugging Face 合作使用 cuTile Rust 构建的 Qwen3 推理引擎。在 batch-1 Qwen3 解码中，Grout 在 NVIDIA GeForce RTX 5090 上达到 171 tokens/s（Qwen3-4B），在 B200 上达到 82 tokens/s（Qwen3-32B），根据我们的 HBM roofline 分析，在内存受限的推理任务上展示了具有竞争力的最先进性能。

论文评估的可重现性工件可在此处获取。论文中的测量是针对 cuTile Rust 0.2.0 运行的，论文中使用的 Grout 版本可在此处获取。

引用

如果您在研究中使用 cuTile Rust，请引用该论文：

@misc{elibol2026fearlessconcurrencygpu,
  title = {Fearless Concurrency on the GPU},
  author = {Elibol, Melih and Roesch, Jared and Gelado, Isaac and Buehler, Eric and Garland, Michael},
  year = {2026},
  eprint = {2606.15991},
  archivePrefix = {arXiv},
  primaryClass = {cs.PL},
  url = {https://arxiv.org/abs/2606.15991}
}

设置

### 要求

NVIDIA GPU，计算能力为 sm_80 或更高（最低支持架构：sm_80）。
sm_100+ 由 CUDA 13.1+ 支持。
sm_8x 支持在 CUDA 13.2 中添加。
CUDA 13.3 添加了 sm_90 支持，因此 CUDA 13.3 用户现在拥有 sm_80+ 覆盖范围。
CUDA 推荐 13.3（sm_80+ 支持和 CUDA Tile IR 13.3 功能，如 FP4 打包和块缩放 MMA）。
Rust 1.89+
Linux（在 Ubuntu 24.04 上测试）

### 安装

#### Rust

安装 Rust：

curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh
rustup default stable

#### CUDA

按照官方说明为您的操作系统安装 CUDA 13.3： https://developer.nvidia.com/cuda-downloads

### 配置环境

将 CUDA_TOOLKIT_PATH 设置为您的 CUDA 13.3 安装目录。

示例 .cargo/config.toml：

[env]
CUDA_TOOLKIT_PATH = { value = "/usr/local/cuda-13", relative = false }

### 验证安装

运行 hello world 示例：

cargo run -p cutile-examples --example hello_world

如果一切正常，您应该看到：Hello, I am tile <0, 0, 0> in a kernel with <1, 1, 1> tiles.

通过 Nix 使用

我们提供了一个 Nix flake 以便于设置和开发。如果尚未启用，必须在您的 Nix 配置中启用 Flakes，添加到 ~/.config/nix/nix.conf：

experimental-features = nix-command flakes

直接运行命令：

nix develop -c cargo run -p cutile-examples --example saxpy

或打开交互式 shell：

nix develop
# cutile-rs dev shell
#  ✓ CUDA  /nix/store/...-cuda-toolkit-13.3
#  ✓ Rust  1.90.0-nightly

该 flake 会自动在 NixOS 和非 NixOS 系统上定位宿主 NVIDIA 驱动库。

测试

cuTile IR：cargo test --package cutile-ir
cuTile Rust 编译器：cargo test --package cutile-compiler
cuTile Rust 库：cargo test --package cutile
示例：运行单个示例，例如 cargo run -p cutile-examples --example async_gemm
基准测试：cargo bench
全部：./scripts/run_all.sh（或通过管道输出到日志文件：./scripts/run_all.sh 2>&1 | tee test_run.log）

### 工作区 Crates

cutile                 面向用户的 crate，用于编写和执行 tile 内核
├── cutile-macro
├── cutile-compiler
├── cuda-async
└── cuda-core

cutile-kernels         可重用的 cuTile Rust 内核
└── cutile

cutile-macro           cuTile Rust proc-macro
└── cutile-compiler

cutile-compiler        将 cuTile Rust 内核编译为可执行文件
├── cutile-ir
├── cuda-async
└── cuda-core

cutile-ir              纯 Rust Tile IR 构建器和字节码写入器

cuda-async             通过异步 Rust 实现异步 CUDA 执行
└── cuda-core

cuda-core              惯用的安全 CUDA API
└── cuda-bindings

cuda-bindings          NVIDIA CUDA 绑定

许可证

cuda-bindings crate 根据 NVIDIA 软件许可证授权：LICENSE-NVIDIA。所有其他 crate 根据 Apache 许可证 2.0 版授权 https://www.apache.org/licenses/LICENSE-2.0

原文出处链接：https://github.com/NVlabs/cutile-rs

原文出处：https://github.com/nvlabs/cutile-rs

cuTile Rust：在Rust中编写安全的GPU内核

项目状态

快速开始

论文

引用

相关项目和参考

设置

通过 Nix 使用

测试

许可证

zhirenhun

📌 相关推荐