首页 > 教程攻略 > ai资讯 >Majestic Labs推出Prometheus服务器，突破AI大语言模型"内存瓶颈"

Majestic Labs推出Prometheus服务器，突破AI大语言模型"内存瓶颈"

来源：互联网时间：2026-06-02 16:43:04

先说几个核心判断：大语言模型的Token生成本质上是一场“内存游戏”——模型输出文本的速度，直接受制于从内存读取数据的速度。随着模型参数规模不断膨胀，这个瓶颈越来越突出，行业里称之为“内存墙”。

Majestic Labs推出Prometheus服务器，突破AI大语言模型

AI硬件创业公司Majestic Labs正用一种相当直接的方式试图凿穿这堵墙。他们正在打造一款名为Prometheus的全新AI服务器，最高可以塞进128TB内存——什么概念？这个数字是英伟达DGX B300服务器的60多倍，而后者已经是目前顶尖的AI计算机架了。

Majestic Labs联合创始人兼总裁Sha Rabii的思路很清楚：用极致的内存容量来建立竞争壁垒。他承认英伟达在构建可扩展系统上确实做得漂亮，但话锋一转指出，随着模型规模增长，英伟达方案的经济账越来越不好算，“最终的结果是计算资源过剩，内存资源却严重不足”。

架构层面的差异化路线

Majestic Labs打算走一条和现有方案本质不同的技术路径来突破“内存墙”。

英伟达现在的服务器，用高带宽内存（HBM）来读取模型权重，另外配一块容量更大但速度慢一些的DRAM来处理模型运行和服务器相关的开销。Majestic的做法是搞统一架构，全面押注DRAM（具体是LPDDR6）。

Rabii透露，大多数内存接口设计出来就只能用在极短的距离内——有时只有几毫米，这严重限制了能装多少内存。“计算芯片上的‘岸线’就这么长，能放HBM的位置有限，想多放，根本塞不下。”他解释道。

他们的解决方案是用一种由微型铜缆构成的专有内存接口，有效传输距离可以达到一米。与此同时，自研的内存聚合芯片紧贴着内存模块放置，负责协调整台服务器的内存运作。

“这个接口就像高速传输的端点，向外扩展连接大量通用DRAM芯片。”Rabii说。按官方说法，这套设计不仅能支持超大容量的内存寻址，还能提供高达25.6TB/s的内存带宽。

Ignite：定制AI处理单元

光有大内存还不够，还得有强大的AI加速能力，这就像英伟达GPU扮演的角色。Majestic的答案是Ignite——一颗自研的定制AI处理单元，作为服务器的计算核心。一台Prometheus服务器内嵌12颗Ignite芯片。

Ignite在一颗芯片上集成了数据中心级的ARM应用核心和RISC-V向量及张量核心，它们共享同一块内存空间。ARM核心充当片上的主处理器，负责编排AI模型的工作流；RISC-V核心则负责实际的大语言模型计算任务。这种设计的好处是，单颗芯片就能处理大语言模型推理过程中的多个环节，不需要在不同处理器之间来回交接任务。至于具体的计算性能指标，Majestic Labs目前还没公布。

软件生态与兼容性

Rabii对软件层面也很上心，毕竟现在很多AI框架已经深度固化为现有工作流的一部分了。他的态度很明确：“客户采用过程中遇到的每一个摩擦点，不管是硬件还是软件，我们都要尽量消除。”Prometheus支持PyTorch、vLLM和OpenAI的Triton推理框架，而且不需要修改任何代码。换句话说，只要模型是基于这些框架开发的，拿来就能直接跑。

服务器规格与价格展望

聊聊整机规格。Prometheus遵循开放计算项目标准，单个机架最多可以塞进四台服务器，预计每机架总功耗约120千瓦，采用冷板液冷来散热。服务器的内存是模块化设计，意味着初始配置没到128TB上限的机器，日后可以根据需要升级加量。

定价方面，尽管内存容量相当惊人，Majestic还是希望给出一个有竞争力的价格。他们的底气在于用DRAM取代了HBM，成本上更有优势。具体价格还没公布，服务器预计2027年正式发货。

Rabii最后放了个狠话：“根据不同工作负载，客户的资本支出会下降10到50倍，能耗也能跟着降同样的幅度。”

Q&A

Q1：Prometheus服务器为什么能配置这么大的内存？

A：它采用了专有的微型铜缆内存接口，有效传输距离可达一米，突破了传统内存接口只能在几毫米内工作的物理限制。同时配合自研内存聚合芯片，统一调度服务器内所有DRAM资源，从而实现最高128TB的超大内存配置，远超采用HBM方案的传统服务器。

Q2：Ignite芯片和英伟达GPU有什么区别？

A：Ignite将数据中心级ARM应用核心与RISC-V向量及张量核心集成在单颗芯片上，并共享统一内存空间。ARM核心负责模型调度，RISC-V核心负责实际的大语言模型推理计算，无需跨处理器传递数据。而英伟达GPU主要依赖HBM与独立主机CPU协同工作，架构逻辑有所不同。

Q3：Prometheus服务器支持哪些主流AI框架？

A：Prometheus支持PyTorch、vLLM以及OpenAI的Triton推理框架，且无需对现有代码进行任何修改。这意味着已基于上述框架开发的大语言模型可以直接在Prometheus上运行，大幅降低了用户的迁移成本和技术门槛。