AI半天顶博士6个月,奥特曼太激动,生化圈巨震
让OpenAI奥特曼激动的AI成就来了!
「AI科学家」Kosmos一口气拿出了7项发现——不仅独立复现了神经科学、材料科学、生物学三大领域的成果,还在遗传流行病学、多组学整合分析、阿尔茨海默症和转录组学上搞出了4项原创突破。
奥特曼本人激动发文:「我预计大家会看到越来越多类似的事情,而这将成为AI最重要的影响之一。祝贺Future House团队!」

有意思的是,这次突破背后其实也有OpenAI的功劳。Future House董事兼CEO Sam Rodriques在推文里明说:这一切之所以成为可能,很大程度上要归功于OpenAI员工所做的出色工作。持之以恒,接下来的几年注定精彩纷呈。

那么,这个让奥特曼亲自送祝贺的「Future House」到底什么来头?Kosmos究竟做了什么让他如此兴奋?可以保证,这次奥特曼绝对没有「眩晕到瘫坐」,但毫无疑问,他真正看到了「AI加速科学」的ASI曙光。
全球首个AI科学家天团
为AI加速科学而生
前沿科学正在从「稀缺」转向「丰饶」。人类的知识以指数级速度激增,但大脑的容量却止步不前。于是,新的发现被错过,潜在的联系无人察觉。要推动科学进步,人类亟需一种能与数据量齐头并进、能够在整个人类知识记录中推理的智能体。
2023年,非营利组织FutureHouse成立,目标就是打造一位能够加速创新的AI科学家。

「未来之家」的使命很简单:为每一位科研人员配备一位AI科学家,让跨领域的发现加速发生。它堪称全球第一AI科学家天团,可以007不间断查资料、验证生化环材等领域博士级想法的靠谱程度。在2.5个月内,这个平台就找到了治盲新药,让医学圈为之一震。
本月初,FutureHouse的商业分支——Edison(爱迪生)已将此技术推向全球。FutureHouse继续致力于基础生物学研究和教育普及,而Edison则把AI科学家技术扩展到全球研究人员和各行业。

Edison由来自物理、生物、化学和人工智能等领域顶尖机构的科学家与工程师共同打造。它延续FutureHouse的理念,为科研社区提供丰厚的免费服务,同时为需要更高请求速率或额外功能的深度用户提供付费选项。
结构化世界模型
一次可读1500篇论文
Kosmos是继FutureHouse上一代AI科学家Robin之后的一次重大升级。首先,它与许多AI工具完全不同——不是聊天机器人,更像一款「深度科研工具」:需要一定的学习和调试时间,尤其在提示词设计上。Edison团队强调,Kosmos并非闲聊式的「娱乐」工具,而是类似「试剂盒」的科研工具,适合用于真正高价值的研究任务。所以它的定价相当高,但学术用户可享免费额度。
作为下一代的AI科学家,Kosmos的核心突破在于引入了结构化世界模型。

它能高效整合数百条智能体轨迹中提取的信息,在千万级token级别的文本中保持研究目标的一致性与连贯性。此前的AI科学家(比如Robin)受限于大语言模型的上下文长度,在推理路径上「走不了多远」,难以完成复杂发现。而一次完整的Kosmos运行,可以阅读1500篇论文,执行42,000行分析代码——能力远超我们已知的任何智能体。
正因如此,Kosmos相比上一代Robin具备了更强大的分析能力。据Beta测试用户反馈,Kosmos能在一天之内完成原本需要六个月才能完成的科研工作,结论准确率高达79.4%。

这个「六个月」的等效时长最初让人吃惊!不过Kosmos有时也会误入歧途——比如钻进一些统计显著但科学意义不大的方向。因此,把同一个研究目标运行多次Kosmos,可以探索它可能采取的不同路径。
比OpenAI还早的科研AI实习生?
在Kosmos的开发过程中,最让人惊讶的是:完整运行一次Kosmos,相当于博士生或博士后研究约六个月的工作量。更有意思的是,开发团队发现这一「人类等效时间」随着运行深度线性增长——这也成为首个与「科研任务复杂度」有关的推理时间scaling law。
起初,开发团队自己对这个结果也半信半疑,因此专门做了验证——他们邀请Beta测试用户提供研究目标,并代为运行Kosmos,然后将结果发回给测试用户,请他们估算:如果不借助Kosmos,自己完成这一发现大约需要多长时间?在7位科学家的反馈中,20步深度的Kosmos运行平均等效为6.14个月的研究工时。他们对浅层运行也进行了同样的评估,并使用盲测手法控制,最终得出了技术报告中展示的那条scaling law曲线。

尽管「人类节省时间」的估算本身存在主观性,开发团队仍认为Kosmos所完成的工作包确实可以等同于科学家数月的研究时间,原因主要有两点:
一是「独立复现」的客观对照验证。在技术报告中,他们展示了Kosmos做出的三项发现,实际上早已被人类科学家独立完成过——但在运行Kosmos时,有两项仍未发表,另一项虽已发布但发布时间晚于Kosmos模型的训练数据截止日期,他们还确保Kosmos无法访问这些文献或任何引用它们的研究。即便如此,Kosmos依然在一次运行中成功复现了这些核心发现,而根据这些研究原作者的记录,人类完成这些发现通常需耗时约几个月。当然,这一时间也存在不确定性(比如研究人员是否100%投入),但相较于基于主观问卷的「用户反馈法」,这种「已有成果对照法」显然更具客观性。
二是「计算工时」的独立估算模型。他们构建了一个更为量化的评估模型:假设科学家平均阅读一篇论文需时15分钟,执行一次完整的数据分析路径约耗时2小时(该假设与METR对当前AI智能体在软件工程任务中的时长估算一致)。据此统计,Kosmos在一次平均运行中所阅读的论文数量与分析路径总和,换算为人类科研时间约为4.1个月(按每周40小时工作制计算)。

在OpenAI宣布「千亿美元股改」直播中,奥特曼直言OpenAI的「科学家愿景」:到2026年9月,打造一位实习级别的研究助理AI;到2028年,实现一位全自动的「真正AI科学家」。如果现在Kosmos的自动研究就达到了「月级别时长」,那它是不是已经实现了OpenAI的「实习级别研究助理AI」?如果Kosmos已经做到了,OpenAI当初2026年的目标还有什么难度?

难怪奥特曼发推表示激动。而且在技术报告中,Kosmos已经可以在生物、化学、材料科学等学科中发现新结果。报告中的所有结论均配有明确出处——要么引用原始文献,要么标明生成该结论的代码位置,确保整个推理链条完全可溯源。经独立科学家验证,Kosmos报告中有79.4%的陈述是准确的。
7大新发现
拯救生化环材博士生!
技术报告详细列出了Kosmos做出的七项科研发现。其中有三项是对人类科学家此前成果的独立复现。
第一项发现:

第二项发现:

第三项发现:

需要说明的是,虽然Kosmos运行时未访问该研究,但该文预印本发布时间早于其所使用模型的训练数据截止日期,无法完全排除其可能在训练中接触过。

除了上述「复现性发现」,Kosmos还独立作出了四项原创的科学贡献。
第四项发现:

尽管该机制在小鼠中已有研究,但这一发现进一步证实了其在人类中的潜在意义。
第五项发现:

第六项发现:

第七项发现

该下降可能导致磷脂酰丝氨酸暴露于细胞膜表面,向小胶质细胞释放「吃掉我」的信号,从而诱发免疫吞噬反应,导致神经元退化。更关键的是,在另一组人类AD患者的单细胞RNA测序数据中验证了这一发现。在Braak病理阶段II的样本中,内嗅皮层上颗粒层神经元中的flippase表达量明显低于Braak 0阶段(即尚未出现病理变化的阶段),与Tau病变首次出现的时间点完全吻合。
从独立复现到原创发现,Kosmos标志着AI科研能力进入可验证、可复用的新阶段。自动化科学正在形成,科研模式正迎来结构性变化。