第九便利

内联汇编也能内存安全？Fil-C 用沙箱思路攻克 asm() 的终极难题

注：本文介绍的功能为预发布特性，Fil-C 0.679 版本尚未包含。如需测试，需从源码构建。

GCC 和 clang 都支持一种极其强大的内联汇编语法。例如：

unsigned rotate(unsigned x, unsigned char c) {
    asm("roll %1, %0" : "+r"(x) : "c"(c) : "cc");
    return x;
}

这段代码告诉编译器基于 roll %1, %0 模板生成汇编指令——其中 %1 被替换为 %cl，%0 被替换为存放 x 的寄存器，而 c 在 roll 指令执行前被移入 %ecx 寄存器。此外，编译器被告知此指令会改变 x 的值和状态标志位。

这看起来完全不可能安全！如果程序员犯了错呢？比如在 "+r" 中漏掉了 +，或者忘记了 "cc" 破坏声明？在传统的 Yolo-C 中，一旦犯下这种错误，编译器就会乐于生成错误的代码。

然而，Fil-C 支持这种内联汇编语法，并且完全安全！本文解释了 Fil-C 为什么支持内联汇编，并深入探讨了如何在保持程序员意图的同时实现完全的内存安全。

为什么需要内联汇编

在审阅他人的 C 和 C++ 代码时，我总结出以下使用内联汇编的原因（按常见程度排列）：

空白内联汇编防止编译器分析。例如 asm volatile("" : : : "memory")，这是一种古老的 atomic_signal_fence(memory_order_seq_cst) 写法。它通过告诉编译器内联汇编破坏了所有内存，强制编译器像信号栅栏一样序列化内存访问。
访问特殊指令。那些难以甚至无法用 C/C++ 表达的指令。典型的例子就是上面的循环移位操作——C 和 C++ 没有循环移位运算符。其他例子包括调试/追踪指令、断点和模型特定寄存器。
性能优化。使用专用的向量指令或架构特定操作。
ABI 或布局需求。例如调整栈指针，或实现 setjmp/longjmp。

Fil-C 如何让内联汇编变得安全

Fil-C 采用了一种新颖的方法：不是试图验证汇编代码，而是对它的影响进行沙箱化。关键洞察在于：内联汇编通过一组有限的、良好定义的接口与程序的其余部分交互：

输入操作数（汇编可读的只读值）
输出操作数（汇编写回的值）
读写操作数（+r——汇编既读也写的值）
破坏列表（汇编可能修改的寄存器和内存）

Fil-C 会验证汇编模板是否属于安全子集。如果模板是安全的，直接使用；否则，Fil-C 应用运行时安全层：

内存破坏被转换为显式的内存屏障调用
寄存器破坏声明针对允许的寄存器进行验证
间接跳转/调用检查目标合法性
栈指针修改被拦截并验证

结果：程序员得到了他们想要的汇编模板，同时获得了安全保证。如果汇编试图做不安全的事情（例如跳转到任意地址、破坏栈），Fil-C 会介入并触发 panic 或非法指令陷阱。

实例：循环移位

上面的 rotate 函数是微不足道的安全案例——它只使用了寄存器操作数和单条指令。没有内存访问，没有控制流变化。Fil-C 直接放行。

实例：比较并交换

一个更复杂的例子：x86 上的比较并交换：

bool cas(int* ptr, int expected, int desired) {
    bool success;
    asm volatile("lock cmpxchg %2, %1"
                 : "+a"(expected), "+m"(*ptr)
                 : "r"(desired)
                 : "memory");
    success = (expected == desired);
    return success;
}

Fil-C 识别 lock 前缀和 cmpxchg 指令为安全的原子操作。"memory" 破坏声明被转换为内存屏障。结果：安全的原子比较并交换。

限制与未来工作

目前，Fil-C 的安全内联汇编有一些限制：

不允许间接跳转/调用
不允许任意内存访问模式（仅限操作数及其指定偏移）
不允许修改控制寄存器或模型特定寄存器
栈操作受到严格限制

未来版本计划支持更多模式，包括结构化控制流和有限制的间接分支。

更广阔的愿景：让内联汇编不再是"此处有龙"的特性，而是一种被良好理解、安全实施的能力——就像 Rust 对待 unsafe 块的方式。

原文：Memory Safe Inline Assembly — fil-c.org

内存安全的内联汇编：Fil-C 如何让 asm() 不再危险