Majestic Labs推出Prometheus服务器,突破AI大语言模型"内存瓶颈"
先说几个核心判断:大语言模型的Token生成本质上是一场“内存游戏”——模型输出文本的速度,直接受制于从内存读取数据的速度。随着模型参数规模不断膨胀,这个瓶颈越来越突出,行业里称之为“内存墙”。

AI硬件创业公司Majestic Labs正用一种相当直接的方式试图凿穿这堵墙。他们正在打造一款名为Prometheus的全新AI服务器,最高可以塞进128TB内存——什么概念?这个数字是英伟达DGX B300服务器的60多倍,而后者已经是目前顶尖的AI计算机架了。
Majestic Labs联合创始人兼总裁Sha Rabii的思路很清楚:用极致的内存容量来建立竞争壁垒。他承认英伟达在构建可扩展系统上确实做得漂亮,但话锋一转指出,随着模型规模增长,英伟达方案的经济账越来越不好算,“最终的结果是计算资源过剩,内存资源却严重不足”。
架构层面的差异化路线
Majestic Labs打算走一条和现有方案本质不同的技术路径来突破“内存墙”。
英伟达现在的服务器,用高带宽内存(HBM)来读取模型权重,另外配一块容量更大但速度慢一些的DRAM来处理模型运行和服务器相关的开销。Majestic的做法是搞统一架构,全面押注DRAM(具体是LPDDR6)。
Rabii透露,大多数内存接口设计出来就只能用在极短的距离内——有时只有几毫米,这严重限制了能装多少内存。“计算芯片上的‘岸线’就这么长,能放HBM的位置有限,想多放,根本塞不下。”他解释道。
他们的解决方案是用一种由微型铜缆构成的专有内存接口,有效传输距离可以达到一米。与此同时,自研的内存聚合芯片紧贴着内存模块放置,负责协调整台服务器的内存运作。
“这个接口就像高速传输的端点,向外扩展连接大量通用DRAM芯片。”Rabii说。按官方说法,这套设计不仅能支持超大容量的内存寻址,还能提供高达25.6TB/s的内存带宽。
Ignite:定制AI处理单元
光有大内存还不够,还得有强大的AI加速能力,这就像英伟达GPU扮演的角色。Majestic的答案是Ignite——一颗自研的定制AI处理单元,作为服务器的计算核心。一台Prometheus服务器内嵌12颗Ignite芯片。
Ignite在一颗芯片上集成了数据中心级的ARM应用核心和RISC-V向量及张量核心,它们共享同一块内存空间。ARM核心充当片上的主处理器,负责编排AI模型的工作流;RISC-V核心则负责实际的大语言模型计算任务。这种设计的好处是,单颗芯片就能处理大语言模型推理过程中的多个环节,不需要在不同处理器之间来回交接任务。至于具体的计算性能指标,Majestic Labs目前还没公布。
软件生态与兼容性
Rabii对软件层面也很上心,毕竟现在很多AI框架已经深度固化为现有工作流的一部分了。他的态度很明确:“客户采用过程中遇到的每一个摩擦点,不管是硬件还是软件,我们都要尽量消除。”Prometheus支持PyTorch、vLLM和OpenAI的Triton推理框架,而且不需要修改任何代码。换句话说,只要模型是基于这些框架开发的,拿来就能直接跑。
服务器规格与价格展望
聊聊整机规格。Prometheus遵循开放计算项目标准,单个机架最多可以塞进四台服务器,预计每机架总功耗约120千瓦,采用冷板液冷来散热。服务器的内存是模块化设计,意味着初始配置没到128TB上限的机器,日后可以根据需要升级加量。
定价方面,尽管内存容量相当惊人,Majestic还是希望给出一个有竞争力的价格。他们的底气在于用DRAM取代了HBM,成本上更有优势。具体价格还没公布,服务器预计2027年正式发货。
Rabii最后放了个狠话:“根据不同工作负载,客户的资本支出会下降10到50倍,能耗也能跟着降同样的幅度。”
Q&A
Q1:Prometheus服务器为什么能配置这么大的内存?
A:它采用了专有的微型铜缆内存接口,有效传输距离可达一米,突破了传统内存接口只能在几毫米内工作的物理限制。同时配合自研内存聚合芯片,统一调度服务器内所有DRAM资源,从而实现最高128TB的超大内存配置,远超采用HBM方案的传统服务器。
Q2:Ignite芯片和英伟达GPU有什么区别?
A:Ignite将数据中心级ARM应用核心与RISC-V向量及张量核心集成在单颗芯片上,并共享统一内存空间。ARM核心负责模型调度,RISC-V核心负责实际的大语言模型推理计算,无需跨处理器传递数据。而英伟达GPU主要依赖HBM与独立主机CPU协同工作,架构逻辑有所不同。
Q3:Prometheus服务器支持哪些主流AI框架?
A:Prometheus支持PyTorch、vLLM以及OpenAI的Triton推理框架,且无需对现有代码进行任何修改。这意味着已基于上述框架开发的大语言模型可以直接在Prometheus上运行,大幅降低了用户的迁移成本和技术门槛。