1亿个Token!初创公司Magic与Google达成合作,表演LLM界的大力出奇迹。
LLM 界的大力出奇迹是什么样的?

美国初创公司 Magic 最近亮出了一个让人眼前一亮的家伙——一个拥有
1亿
1亿个字
Magic 这次推出的 LTM 模型,没有走传统的模糊记忆训练路线,而是设计了一套全新的技术,叫做 HashHop。这套技术的核心在于,模型可以在推理过程中,对多达1亿个上下文标记进行直接推理。Magic 方面也明确表态:虽然这些超长上下文模型的商业应用场景很多,但他们的定位很清晰——
只做上游模型
HashHop
说回现实,当前对长上下文模型的评估,其实并不算理想。
业界常用“大海捞针”来打比方:把一个随机事实(针)塞进长篇上下文(大海)里,然后看模型能不能把它找出来。但 Magic 觉得这还不够,于是设计了
HashHop
哈希是
随机的
具体是怎么做的?先是用哈希对来训练模型:

然后要求它完成随机选择的哈希对的值:

这衡量的是单步感应头的表现。但实际应用场景,往往需要“多跳”能力。于是进一步让模型完成一个哈希链:

为了保证顺序和位置不变性,提示中的哈希对会被打乱:

他们还提出了一个更有挑战的变体:让模型跳过一些步骤。比如直接从哈希1映射到哈希6:

这就要求模型架构能够一次性关注,并在潜在空间中跳过整个上下文的多个点。目前,HashHop 技术的代码已经对全网公开。
LTM-2-mini
Magic 发布的首个1亿标记上下文模型叫 LTM-2-mini。1亿个标记是什么概念?大约相当于
1000万
750本
1000倍
内存需求方面的对比更夸张。如果要运行一个100M令牌上下文的 Llama 3.1 405B,每个用户需要 638 个 H100 才能存储单个100M令牌的KV缓存。而 LTM 只需要每个用户单个 H100 HBM 的一小部分。
通过上面这套链式哈希训练,LTM 架构得出了以下结果:

团队发现,在没有思路链的情况下尝试3次或更多次跳跃时,性能会变差。但对于单次2次跳跃(比如哈希1 → 哈希3),没有思路链时,性能反而提升了不少。

他们还利用超长上下文机制,在 text-to-diff 数据上训练了一个原型模型。虽然这个模型比前沿模型小了好几个数量级,代码合成能力也不算强,偶尔才能产生合理的输出——但这毕竟只是个开始。
和Google合作
为了训练这庞大的 token 数,Magic 正式宣布与 Google Cloud 合作,打造两台新的云端超级计算机。事实上,全球超过一半的生成式 AI 初创公司都在 Google Cloud 上扎根,利用其 AI 平台。
借助 Google Cloud,Magic 将使用搭载 NVIDIA H100 Tensor Core GPU 的 A3 Mega VM 来构建其 G4 超级计算机。这些计算机能够实现
160 百亿亿
Magic 创始人 Eric Steinberger 表示:Google Cloud 将成为 Magic 的重要合作伙伴。
所谓的超级计算机,得到了 NVIDIA 的大力支持,一共两台:
一台是 NVIDIA H100 Tensor Core GPU 提供的
Magic-G4
Magic-G5
3.2亿美元投资
就在昨天,Magic 也完成了一轮 3.2 亿美元的融资。算上之前的融资,Magic 目前的总融资额已经接近 5 亿美元。这也让它正式跻身资金雄厚的 AI 编码初创公司队伍。
AI继续!
尽管前两天 AI 股跌得有点狠,但一级投资市场的消息还是一个接着一个。这边 Nvidia 和苹果正参与 OpenAI 下一轮融资谈判,这轮谈判中 ChatGPT 的估值可能会达到 1000 亿美元。微软大概率也不会缺席,毕竟它手里还握着 OpenAI 49% 的股份。
今年年初,OpenAI 的年收入就已经超过了 34 亿美元。但随着 AI 培训和人员配备工作的持续扩大,到年底,OpenAI 的亏损额预计将达到 50 亿美元。奥特曼依然需要大量投资来填补这个缺口。
