原文:Multi-Stream LLMs: Unblocking Language Models with Parallel Streams of Thoughts, Inputs and Outputs
多流LLM(Multi-Stream LLMs)通过引入并行的token流,扩展了标准的语言建模范式,使其能够同时处理多条思维线、多个输入和多个输出。与传统自回归解码逐个生成token的方式不同,本方法通过跨流注意力机制(cross-stream attention)在维持连贯性的同时,并行处理多个token流。这使得LLM能够同时推理问题的不同方面、一次性处理多种输入模态,并在单次前向传播中生成多个输出变体。
大语言模型的成功源于"下一个token预测"这一简单而强大的范式。然而,这种顺序性质带来了固有的瓶颈:每个token必须先生成完毕,下一个才能开始,这限制了吞吐量,也使模型无法同时考虑多种可能性。

图1:传统自回归解码(上)与多流并行解码(下)的对比。在多流方法中,K条独立的token流被同时处理,跨流注意力确保各流之间的连贯性。
人类天生就能并行思考——我们可以同时考虑问题的多个方面、权衡不同选项、整合来自多种来源的信息。当前的LLM缺乏这种能力,被迫以严格的顺序方式处理信息。
多流架构提供了几个关键优势:
安全性(Security)。通过将指令遵循流与用户输入流分离,可以从根本上防止提示注入攻击。模型的核心推理流永远不会直接处理不可信的用户输入。

图2:流分离的安全架构。指令流(蓝色)提供系统提示和护栏,用户输入流(绿色)处理外部数据。推理流(紫色)通过跨流注意力机制整合来自两者的信息。
效率(Efficiency)。多个流可以在现代GPU硬件上并行处理,相比顺序生成显著降低延迟。
可监控性(Monitorability)。内部推理流可以被暴露用于调试和监控,而不影响主输出流。
我们通过引入多条并行的token流来扩展标准Transformer架构。每条流维护自己的KV缓存并独立处理token,跨流注意力层允许信息在流之间交换。

图3:多流Transformer架构。模型处理K条并行的token流,每条流拥有自己的KV缓存。跨流注意力(灰色箭头)使信息在每一层的各流之间流动。
我们通过将现有的单流示例转换为多流格式来构建训练数据。对于每个训练样本,我们根据辅助模型识别的语义边界,将内容分配到K条流上。
模型使用改进的下一个token预测目标进行训练,该目标考虑了多个流。每条流根据所有流的上下文预测自己的下一个token。我们使用温度调度的训练流程,在训练过程中逐步增加跨流注意力的强度。

图4:训练损失曲线对比——单流基线(蓝色)与不同流数量的多流模型(K=2绿色,K=4橙色,K=8红色)。
在推理过程中,所有流同步推进——每条流生成一个token后再移动到下一个位置。跨流注意力在每一层应用,确保每条流的表示都受到所有其他流当前状态的影响。
我们在标准基准上的实验表明,多流模型在显著降低推理延迟的同时,达到了与单流基线相当的质量。使用K=4流时,我们在长文本生成任务上观察到3.2倍的加速,同时在困惑度和下游任务性能方面保持了98%的质量水平。
多流架构最有前景的应用之一在于安全性。通过将系统指令和用户输入分配到不同的流,我们建立了一道架构层面的屏障来对抗提示注入攻击。

图5:提示注入攻击场景。(a) 传统单流模型易受注入攻击。(b) 具有分离指令流和用户流的多流模型能够抵御注入攻击。
在我们的安全评估中,具有K=3流(指令、用户输入、推理)的多流模型成功抵御了94%的提示注入尝试,而单流基线仅为12%。
推理流可以暴露给开发者用于调试和审计。这为模型的决策过程提供了前所未有的可见性,同时不影响最终输出的质量。
尽管多流架构展示出了巨大的潜力,但仍存在若干挑战。当K超过8条流时,训练效率会下降,且最优流数量取决于具体任务。未来的工作方向包括自适应流分配和动态流合并。
一个热爱技术的程序员,喜欢分享前沿AI知识和开发经验。