首页 > 教程攻略 > ai资讯 >跨数据中心的创新:Moonshot AI 与清华大学提出 PrfaaS 架构

跨数据中心的创新:Moonshot AI 与清华大学提出 PrfaaS 架构

来源:互联网 时间:2026-07-02 14:54:22

预填充即服务:打破大型语言模型推理的算力围墙

大型语言模型的推理任务,正变得越来越“吃”算力。传统的服务架构,在处理这种日益增长的计算需求时,开始显得有些力不从心。最近,Moonshot AI与清华大学的研究团队联手,提出了一种颇具启发性的新架构——预填充即服务(PrfaaS)。它的核心目标很明确:就是要突破当前大型语言模型服务对数据中心和计算资源的既有束缚。

image.png

要理解PrfaaS的价值,得先看看现在的主流做法。通常,一次LLM推理会分为两个截然不同的阶段:预填充和解码。预填充阶段,模型需要一口气处理完整个输入提示,并生成后续解码所必需的键值缓存(KVCache)。这个过程计算强度极高,非常“烧”GPU。而接下来的解码阶段,则是模型根据KVCache,像挤牙膏一样逐个生成输出词元,这个阶段对内存带宽的压力更大。问题在于,传统架构把这两个阶段都“锁”在了同一个数据中心里完成,这就好比让一个短跑健将和马拉松选手在同一条跑道上比赛,难免互相掣肘,在计算和带宽资源分配上形成瓶颈。

那么,PrfaaS是如何破局的呢?思路其实很巧妙:解耦。它将高计算密集型的预填充任务,从本地集群“卸载”到远端的专用高算力集群上去执行。等那边的“重活”干完,生成了KVCache,再通过通用的以太网网络,将这份“半成品”传输回本地的解码集群,进行后续的轻量化解码。这种跨数据中心的协同,效果立竿见影。研究数据显示,与传统模型服务方式相比,PrfaaS的架构能将服务吞吐量提升高达54%。在实际的案例测试中,它也展现出了更低的延迟和更高的整体资源效率。

当然,把任务拆分到不同地方,挑战也随之而来。PrfaaS的聪明之处在于,它将整个系统清晰地划分为计算、网络和存储三大子系统,并分别进行精细化管理。通过一套精确的路由机制,系统能够确保那些较长的请求(需要传输更多KVCache数据)也能被高效调度,从而避免了传统方法中因资源分配不均而导致的网络拥堵。更值得一提的是,该系统还引入了一种双时间尺度的调度机制,能够灵活应对不同流量模式的变化,进一步榨干了硬件资源的利用潜力。

话说回来,随着AI应用场景的复杂化,对跨数据中心协同推理的需求只会增不减,加之新型硬件不断涌现,计算格局正在重塑。在这种背景下,PrfaaS这类架构的探索,无疑为未来大规模、高效率的AI服务提供了一条值得深入挖掘的新路径。