首页 > 教程攻略 > ai资讯 >GPU不是AI的唯一解:英伟达用Groq LPU证明,推理赛道需要“另一条腿”

GPU不是AI的唯一解:英伟达用Groq LPU证明,推理赛道需要“另一条腿”

来源:互联网 时间:2026-05-27 16:25:54

过去十年,人工智能的爆发式增长,始终与GPU的需求紧密捆绑。凭借其卓越的并行计算能力,GPU几乎成了AI算力的代名词。

然而,故事正在翻开新的一页。在最近的GTC大会上,英伟达首席执行官黄仁勋正式发布了Vera Rubin AI超级计算机平台。这一平台的问世,远不止是一款新产品的发布,它标志着英伟达的战略重心,正从单一的GPU主导,转向一个涵盖CPU、GPU乃至LPU等技术的全栈“AI工厂”方案商。这背后传递出一个清晰的信号:未来的AI算力版图,将不再由GPU“独舞”。

全栈进化:从“芯片商”到“AI工厂”的转身

市场数据清晰地描绘了这场变革的宏大背景。根据Statista的报告,2023年全球GPU市场规模约为436亿美元。但随着大模型参数量的指数级跃升,数据中心对高性能算力的需求呈现井喷态势,预计2024至2029年间,该市场的复合年增长率将高达33.2%,到2029年有望达到2742亿美元。

算力需求的膨胀速度更为惊人。有观点指出,全球AI算力需求正以“每两年激增750倍”的速率狂飙。在此浪潮下,中国云端AI芯片市场预计将于2027年突破480亿美元,其中国产GPU预计将占据超过八成的市场份额。

然而,产业对单一架构的过度依赖,也引发了业内的深层思考。面对日益凸显的能效瓶颈、内存墙限制以及愈发多样化的应用场景,除了GPU,是否还存在更优的解决方案?

英伟达在GTC 2026上给出的答案是Vera Rubin。这个AI超级计算机平台,包含了7款芯片、5种机架级计算机以及1台AI超算等丰富组件。

黄仁勋在会后多次强调一个关键转变:“英伟达已经不再是一家传统的芯片公司,而是一家全栈公司。”他解释道,客户需要的并非孤立的芯片,而是能够直接投入生产的完整“AI工厂”。如果缺乏交付整体解决方案的软件与系统能力,仅仅销售芯片将难以为继。正是基于这种“全栈”思维,英伟达推出了备受期待的非GPU重磅产品——推理加速机架“英伟达Groq 3 LPX”。

这款机架配备了256个Groq 3 LPU芯片,拥有高达128GB的片上SRAM、315 PFLOPS的算力以及640 TB/s的扩展带宽,并可扩展至超过1000张LPU,其设计目标直指大语言模型推理中的核心痛点:延迟。

为了更直观地展示差异,黄仁勋现场对比了Rubin GPU与Groq 3 LPU的关键参数。Rubin GPU堪称“巨量存储与吞吐”的化身,拥有3360亿颗晶体管、288GB HBM4显存及22 TB/s带宽,在NVFP4精度下算力达50 PFLOPs。而Groq 3 LPU则走了“极致片上速度”的极简路线,仅配备980亿颗晶体管与500MB SRAM(容量仅为Rubin的1/500),算力为1.2 PFLOPS。但其制胜关键在于高达150 TB/s的SRAM带宽,这使得其片内数据传输速度达到了Rubin的7倍之多。

黄仁勋对这一新平台寄予厚望。他预判:“我们正处于英伟达推理拐点的第一年,这是十年来该领域真正意义上的第一个拐点年。而Vera Rubin将引领拐点的第二年,新增需求的比例同样会达到极高的水平。这有些像当年的iPhone 3,其销量的绝大部分都源于前所未有的增量市场。”在他看来,Vera Rubin平台有望在十年内将计算能力提高4000万倍,从而加速英伟达成为全球最大的“AI工厂”。

Groq:补齐推理拼图的最后一块

引入Groq技术,其战略意图并非取代GPU,而是为了完成全栈拼图中最关键的一块。黄仁勋清晰地阐述了其中的逻辑:一个新兴的细分市场正在崛起,它对模型提出了三个极为严苛的条件:模型体量巨大、支持超长上下文、同时保持极低的推理延迟。单一的Groq LPU只能完美兑现其中一项承诺,无法三者兼得。唯有将Vera Rubin与Groq深度融合,才能同时满足这三项要求。这也是英伟达收购Groq的核心初衷之一。

新的Vera Rubin平台通过CPU、GPU与LPU的深度协同,实现了算力质的飞跃。这一架构不仅为长期由GPU主导的复杂计算提供了替代思路,更凭借强大的推理调度能力,重构了算力分工的边界——促使不同计算单元各司其职,基于负载特性实现精准协同与效能最大化。

LPU的运作原理与GPU有本质不同。GPU采用SIMD(单指令多数据)架构,而LPU基于顺序指令集计算机架构。这种设计消除了对HBM高频重载的依赖,不仅有效规避了HBM供应链瓶颈带来的成本压力,更大幅缓解了“内存墙”的限制。

在能效方面,LPU通过减少多线程管理的开销并避免核心资源闲置,实现了极致的每瓦特算力密度,尤其在推理负载下优势明显。公开数据显示,在Llama 2-70B模型的推理任务中,LPU系统实现了每秒近300个token的吞吐量,相较英伟达H100,性能提升可达10倍,单位推理成本降低达80%。


图源:Groq官网

融入英伟达的Vera Rubin平台后,该解决方案尤其适用于电力资源紧张的兆瓦级数据中心。在这个“工厂”里,GPU负责处理高并发的复杂矩阵运算,而Groq 3 LPU则凭借其独特的确定性低延迟架构,专注于高速的Token生成,在长上下文场景中表现尤为卓越。黄仁勋再次强调其核心理念:我们构建的不是一块GPU,而是一座完整的AI工厂。

他形象地举例说明了这种转变:过去十年,超大规模数据中心受“按核计费”的云计算模式驱动,CPU设计追求核心数量最大化。但AI时代的逻辑已然改变,核心指标从“资源存量”转向了“任务吞吐量”。“面对价值500亿美元的GPU集群,你绝不允许它们因价值10亿美元的CPU处理瓶颈而闲置。此时的核心诉求,是迫使CPU以极致速度完成调度,确保整个GPU集群持续满负荷运转。”他指出。

小结:算力部署的根本性变革

可以预见,未来的AI算力部署将迎来根本性变革,GPU不再是唯一的答案。黄仁勋描绘了他心中的“算力工厂”配置蓝图:在一座标准的算力工厂中,约75%的部署将是纯Vera Rubin架构;其余25%则会采用“Vera Rubin + Groq”的混合模式。他反复强调,Vera Rubin将是无可撼动的核心基石,其性能之强悍,甚至让英伟达自身都难以构想超越之道。

“我们自己都不知道如何超越Vera Rubin,否则我们早就设计出超越它的产品了。”他认为,虽然当前的推理性能王座由Grace Blackwell平台占据,但在不久的将来,Grace Blackwell将功成身退,而Vera Rubin及其后续迭代版本,将加冕为新的“推理算力之王”,登顶性能巅峰。