Kimi让大模型推理跨地域调度:KVCache商用以太网就能传,延迟降64%
Site Owner
发布于 2026-04-19
Kimi新论文PrFaaS通过混合注意力架构将KVCache带宽需求降低13倍,使跨地域PD分离成为可能,重新定义了大模型推理的经济学。
Kimi让大模型推理跨地域调度:KVCache商用以太网就能传,延迟降64%
你可能已经知道,大模型推理普遍采用Prefill-Decode(PD)分离架构。PD分离能显著提升吞吐量,是各大厂的标配。但你有没有想过——为什么这套架构只能在同一个机房里跑?
答案藏在KVCache的带宽需求里。
以MiniMax-M2.5为例,在32K上下文时,单实例产生的KVCache速率达到60Gbps。而跨数据中心以太网带宽通常只有10-100Gbps——相当于用消防水带往你家水龙头里灌水,接口压根对不上。
所以很长一段时间里,Prefill和Decode必须被强行绑定在RDMA网络能覆盖的范围内。想跨个城市调度?做梦。
新架构让"异地恋"变成可能
转折来自混合注意力架构。
Kimi Linear、Qwen 3.5、MiMo-V2-Flash、Ring-2.5这些新模型,用的都是"线性注意力+全注意力"混合架构。线性层只产出固定大小的循环状态,不随上下文变长而膨胀;只有全注意力层才会生成和长度相关的KVCache。
效果很直接:32K上下文下,MiMo-V2-Flash的KV吞吐量仅4.66Gbps,相比MiniMax-M2.5降了13倍;Qwen3.5-397B的8.25Gbps相比同规格dense模型的33.35Gbps,降低4倍。
KV吞吐量从RDMA级别降到了以太网级别。跨数据中心做PD分离,从不可能变成了可能。
这让Kimi和清华大学联合团队有了底气去解决一个问题:怎么设计一套系统,让Prefill和Decode真正解耦、跨地域调度?
PrFaaS:把Prefill变成一种服务
他们的答案是PrFaaS(Prefill-as-a-Service),预填充即服务。
核心逻辑很直接:长上下文请求的Prefill计算,卸载到独立的算力密集型专用集群完成;生成的KVCache通过普通以太网传回本地PD集群,执行Decode。
系统设一个动态长度阈值t。短请求(未缓存长度≤t)留在本地PD集群跑完整个流程。只有长请求(未缓存长度>t)才会被送到PrFaaS集群做Prefill,生成的KVCache再通过以太网传回本地做Decode。
阈值t会跟着实时带宽、请求长度分布自动调整。这很关键——流量是波动的,配比定死就会出现一边忙到飞起、一边闲成狗的情况。
整套架构由三大子系统配合。
计算层:PrFaaS集群用H200这类高端芯片专啃Prefill硬骨头;本地PD集群用H20这类带宽优化芯片专心做Decode。术业有专攻,两类硬件各自独立扩容,不再强行配对。
网络层:集群内部用RDMA保证低延迟,跨数据中心用VPC或专线,走通用以太网传KVCache。研究团队实测环境是100Gbps VPC,远低于RDMA的800Gbps,但足够用了。
存储层:设计了混合前缀缓存池,分两类——prefix-cache块在集群内复用,必须块对齐才能命中;transfer-cache块专门用于跨集群传输,传完即弃,不占用长期存储。
为什么要这样分?因为混合模型的KVCache是异构的。线性层的recurrent state是request-level,大小固定,必须完全匹配才能复用;全注意力层的KVCache是block-level,支持部分前缀匹配。统一池化管理,既能高效复用本地缓存,又能灵活支持跨集群传输。
双时间尺度调度:毫秒级响应,分钟级调整
生产环境里,光有架构还不够。PrFaaS设计了双时间尺度调度算法来稳住局面。
短期调度(毫秒级)做带宽+缓存感知路由。监控PrFaaS出口利用率,接近阈值时提高t、减少跨中心流量。对于带前缀缓存的请求,调度器会权衡缓存命中位置和带宽可用性——带宽紧张时优先用本地缓存,带宽充裕时从远程集群拉缓存来减少重复计算。
长期调度(分钟级)做流量驱动的资源重分配。观察各阶段队列深度和利用率,当Prefill成为瓶颈时,把PD集群的节点从Decode角色转为Prefill角色;当Decode成为瓶颈时,反向调整。
这种动态重分配让系统能适应流量模式的缓慢变化。
实测数据:吞吐量提升54%,P90延迟降低64%
研究团队基于1T参数混合注意力架构模型(Kimi Linear架构,线性:全注意力7:1混合配比)开展生产级对照实验。
硬件组合:PrFaaS集群32张H200,本地PD集群64张H20 GPU。网络层面采用跨数据中心VPC对等连接,约100Gbps跨集群带宽。
实验workload采用截断对数正态分布的请求长度,均值约27K tokens,高度贴近线上长上下文服务的真实流量特征。
结果很硬:
- 相比同等硬件规模的同构PD集群,PrFaaS-PD架构吞吐量提升54%;
- 相比未做智能调度的简单异构部署,吞吐量仍有32%提升;
- P90 TTFT(首词时延)降低64%——长请求不再与短请求争抢本地Prefill资源;
- PrFaaS集群平均出口带宽仅13Gbps,在100Gbps链路中占比仅13%,留有充足带宽冗余。
最后这条最值得拎出来说。13Gbps意味着普通商用以太网就能稳定承载,部署难度和成本大幅下降。
这篇论文告诉我们什么
说实话,看完这篇论文我的第一反应是:做基础设施的人,思维方式跟做应用的人差别真大。
我们日常聊AI应用、聊Agent、聊RAG、聊Prompt工程——这些当然重要。但真正决定AI规模化上限的,是底层推理架构的每一次突破。Mooncake团队这篇论文解决的,是一个藏在水面下但极其关键的问题:大模型推理的"地理限制"。
过去几年,我们习惯了"算力中心化"的叙事——GPU短缺、算力租赁、排队等卡。但这篇论文指向的是另一个方向:当KVCache传输成本足够低、架构足够灵活,推理也可以是分布式的。
分布式推理意味着什么?意味着你可以用更低的成本调用更高质量的算力;意味着Prefill和Decode可以根据流量动态调度;意味着长上下文服务不再受限于单一数据中心的物理条件。
这才是我认为这篇论文最值得关注的地方——它不只是在学术上有意义,它在工程上证明了跨地域推理的可行性,而这条路线一旦跑通,整个行业的算力调配逻辑都会跟着变。
研究团队已经在GitHub上开源了Mooncake项目,论文地址是arxiv.org/abs/2604.15039。感兴趣可以直接去看。