首页 > 教程攻略 > 热点新闻 >字节跳动自研LPU芯片聚焦AI推理，对标Groq打造国产

字节跳动自研LPU芯片聚焦AI推理，对标Groq打造国产

来源：互联网时间：2026-05-30 17:00:22

人工智能推理算力需求持续走高，国内芯片研发的路线图正在悄然调整——从传统GPU转向以中央处理器为核心的新思路。最新消息显示，字节跳动已经悄悄启动了自研CPU项目，而且瞄准的并不是常规处理器，而是逻辑处理单元（LPU）这种新型芯片。

一位长期跟踪行业动态的海外分析师透露，字节跳动正与国内一家阻变存储器（RRAM）企业深度合作，试图打造一款对标Groq LPU的技术方案。这个消息值得关注，因为它意味着头部玩家已经开始认真押注LPU这条赛道。

要知道，过去不少人觉得LPU只能在小众场景里跑跑，但字节跳动的动向说明，这种专为大语言模型优化的张量处理架构，正在成为全球科技巨头争相布局的关键方向。LPU在公众认知里远不如GPU或TPU那样普及，不过最近一次出圈是今年三月——某国际厂商在年度技术大会上发布了LPU30芯片。需要说明的是，这款芯片并非他们自研的，而是去年底花了200亿美元从Groq那里拿到的技术授权。

200亿美元砸下去，背后是LPU不可忽视的技术价值。Groq的创始人乔纳森·罗斯，正是十年前谷歌TPU项目的核心负责人之一。2016年，他带着多位TPU骨干一起出来创办了Groq，目标就是打造面向AI推理的专用硬件。从根上看，LPU和通用型GPU的思路完全不同——它从底层架构出发，全面适配大语言模型的计算特征。

实测数据挺有说服力：LPU的推理速度可以达到H100 GPU的十倍，而单位算力成本只有后者的十分之一。这恰好切中了企业对实时性和低延迟AI服务的痛点。拿LPU30来说，单颗芯片集成了500MB SRAM缓存，晶体管规模达到980亿，FP8精度下算力1.2 PFLOPS。峰值AI算力可能还没超过新一代GPU，但内存带宽高达150 TB/s——相比之下，当前主流HBM4标准才22 TB/s，差距显而易见。

后续推出的Groq 3 LPU芯片采用了模块化部署方式，以Groq 3 LPX机架为载体，单机架能塞下256颗LPU30，总缓存容量128GB，内存总带宽飙到40 PB/s，芯片间互联带宽也达到640 TB/s。看得出，LPU不是要和GPU拼绝对算力，而是在数据吞吐、访问延迟这些影响推理效率的关键维度上实现数倍跃升，从而大幅改善AI服务的响应质量和运行经济性。

如果字节跳动真能把类LPU芯片搞出来并且落地，用户端体验可能会有质的飞跃。举个例子，现在大家熟悉的智能助手产品，虽然交互挺自然，但在复杂任务理解和多步推理上还有提升空间——说白了，背后就是推理算力资源不够。一旦引入LPU级别的硬件支持，运营成本能降下来，产品的理解力、响应力和任务执行能力也会上一个台阶，智能化潜力才能真正释放出来。

字节跳动自研LPU芯片聚焦AI推理，对标Groq打造国产

相关阅读

相关下载