不好,1930年的AI都来抢程序员饭碗了
劳动节到了,连这位即将“百岁高龄”的复古大模型也得开始干活了。
没错,有人对一个知识截止于1930年的“老古董”进行了微调,竟然把它变成了一名软件工程师。整个过程比想象中轻松,仅仅用了250个训练样本,这位强悍的“老先生”就解决了自己职业生涯中的第一个编程问题——
为xarray库成功打上了一个补丁。

一个连电视机概念都不存在的AI,如今也开始“学坏”,要和Claude这样的现代模型竞争,甚至威胁到程序员的饭碗了——当然,这只是句玩笑。
中古硅基软件工程师
中古硅基软件工程师
首先,我们来认识一下这位“老先生”。它的大名是
talkie-1930-13b
背后的研发团队阵容亮眼,包括AI研究员Nick Levine、多伦多大学副教授Da vid Duvenaud,以及一位大家更为熟悉的名字——
Alec Radford

这个模型最有趣的设计在于其训练数据的一条铁律:
1931年1月1日之后的任何文本,一概不准进入。
这意味着,它的世界里没有电视机,没有互联网,甚至不知道第二次世界大战的结局。这个AI的认知,
被永恒地定格在了1930年12月31日的午夜。
然而,让整个技术社区感到惊讶的是,就是这样一个“老古董”,当被抛出一道Python编程题时,这个跨越近百年的“过去之灵”,竟然真的写出了人生的第一行Python代码。
这听起来确实有些不可思议。

如今,这位“老先生”再次展现了实力。有人对Alec Radford的这个1930复古模型进行了针对性微调,让它去挑战SWE-bench基准测试中的真实软件工程问题。
结果出乎意料,它真的成功了。在仅使用250个训练样本后,模型就实现了第一个代码修复——
一个针对xarray库的小补丁。
百岁“老人”,硬核上岗,这画面颇具冲击力。
团队完整公布了模型解决这个xarray库问题的全过程。说实话,如果以审视前沿大语言模型的标准来看,这个演示过程确实显得有些“笨拙”。
一个相对简单的问题,模型足足尝试了49轮才最终解决,过程漫长且缓慢。中间有些轮次的尝试,以今天的标准看甚至显得有点“蠢”,让人看得着急,但你又很难对这样一个“历史文物”发脾气。
但恰恰是这种过程,在某些时刻反而更令人兴奋,仿佛在看一部技术版的“励志剧”。
举个例子,模型一开始其实搞砸了。在
第12轮

代码可以报错,但“老兵”并未放弃。它持续尝试,不断调整,直到最终意识到问题所在……然后在第44轮,
它成功修复了问题!

必须承认,这个修复本身在技术层面并不复杂,别说与当前最先进的AI模型相比,即便是与人类编程新手相比,可能也谈不上惊艳。
但真正关键之处,在于模型
在整个解题过程中展现出的思考轨迹
同样会尝试,会犯错,会分析,并最终找到解决方案
除了具体的演示,其在基准测试上的表现也值得关注。当微调所用的训练数据规模扩展到大约7.5万条轨迹(约10亿token)时,该模型在SWE-bench-Verified基准上达到了
4.5%
要知道,它原先在HumanEval基准上的pass@100通过率才4%。这个进步幅度相当可观。虽然绝对值仍然很低,但对于一个知识截止于1930年的模型而言,这已经足够令人惊讶。

另一个对照实验的结果更有意思。研究团队实际上还训练了一个兄弟模型,名为
talkie-web
使用完全相同的微调配方后,talkie-web在SWE-bench-Verified上的成绩是
5.5%
高出1个百分点

上述所有结果都是可复现的。这并非什么科幻故事,团队
已经在GitHub上开源了整个项目
什么是智能?
什么是智能?
研究团队并未深入剖析现象背后的原因,但社区中的许多讨论已经指向了一个更根本的问题。
我们长期以来似乎持有一种假设:AI需要“吞噬”整个互联网的信息才能变得聪明。但如果一个只阅读过1930年以前书籍的模型,经过少量后训练就能理解现代软件工程并修复代码错误……
那么,我们对于“智能”本身的理解,是否也需要重新审视?
4.5%的pass@1通过率,放在当今最先进的模型面前确实不值一提。但它所证明的事情,可能比任何基准分数都更重要。它暗示着,一个生活在1930年代的人,如果拥有近乎相同的认知与教育框架,完全有可能理解现代的软件工程概念。
一百年前的数据量,配合上恰当的后训练方法,似乎就足以催生出符合现代定义的推理能力。
智能的关键瓶颈,或许从来就不在于预训练数据的绝对数量。
或许,我们并不需要一个训练过所有知识的模型。它可能只需要具备基础的语言理解和逻辑能力,就足够了。当整个行业在追求模型规模(Scaling)的道路上高歌猛进之时,这个实验或许能让我们稍微停下脚步,思考一些更本质的问题。
比如,智能的本质,到底是什么?
参考链接:
[1]https://x.com/rdolmedo_/status/2050665193374732430?s=20
[2]https://github.com/RicardoDominguez/talkie-coder