首页

手游

资讯

专题

首页 > 教程攻略 > ai资讯 >不好，1930年的AI都来抢程序员饭碗了

不好，1930年的AI都来抢程序员饭碗了

来源：互联网时间：2026-06-15 15:22:34

劳动节到了，连这位即将“百岁高龄”的复古大模型也得开始干活了。

没错，有人对一个知识截止于1930年的“老古董”进行了微调，竟然把它变成了一名软件工程师。整个过程比想象中轻松，仅仅用了250个训练样本，这位强悍的“老先生”就解决了自己职业生涯中的第一个编程问题——

为xarray库成功打上了一个补丁。

一个连电视机概念都不存在的AI，如今也开始“学坏”，要和Claude这样的现代模型竞争，甚至威胁到程序员的饭碗了——当然，这只是句玩笑。

中古硅基软件工程师

首先，我们来认识一下这位“老先生”。它的大名是

talkie-1930-13b

，最近在AI社区相当火爆。

背后的研发团队阵容亮眼，包括AI研究员Nick Levine、多伦多大学副教授Da vid Duvenaud，以及一位大家更为熟悉的名字——

Alec Radford

，他被许多人视为GPT系列真正的奠基者之一。

这个模型最有趣的设计在于其训练数据的一条铁律：

1931年1月1日之后的任何文本，一概不准进入。

这意味着，它的世界里没有电视机，没有互联网，甚至不知道第二次世界大战的结局。这个AI的认知，

被永恒地定格在了1930年12月31日的午夜。

然而，让整个技术社区感到惊讶的是，就是这样一个“老古董”，当被抛出一道Python编程题时，这个跨越近百年的“过去之灵”，竟然真的写出了人生的第一行Python代码。

这听起来确实有些不可思议。

如今，这位“老先生”再次展现了实力。有人对Alec Radford的这个1930复古模型进行了针对性微调，让它去挑战SWE-bench基准测试中的真实软件工程问题。

结果出乎意料，它真的成功了。在仅使用250个训练样本后，模型就实现了第一个代码修复——

一个针对xarray库的小补丁。

百岁“老人”，硬核上岗，这画面颇具冲击力。

团队完整公布了模型解决这个xarray库问题的全过程。说实话，如果以审视前沿大语言模型的标准来看，这个演示过程确实显得有些“笨拙”。

一个相对简单的问题，模型足足尝试了49轮才最终解决，过程漫长且缓慢。中间有些轮次的尝试，以今天的标准看甚至显得有点“蠢”，让人看得着急，但你又很难对这样一个“历史文物”发脾气。

但恰恰是这种过程，在某些时刻反而更令人兴奋，仿佛在看一部技术版的“励志剧”。

举个例子，模型一开始其实搞砸了。在

第12轮

对话中，它尝试应用补丁但失败了。

代码可以报错，但“老兵”并未放弃。它持续尝试，不断调整，直到最终意识到问题所在……然后在第44轮，

它成功修复了问题！

必须承认，这个修复本身在技术层面并不复杂，别说与当前最先进的AI模型相比，即便是与人类编程新手相比，可能也谈不上惊艳。

但真正关键之处，在于模型

在整个解题过程中展现出的思考轨迹

。它所表现出的那种试错、反思和自我修正的推理能力，与现代模型如出一辙。一个基于1930年知识的模型，

同样会尝试，会犯错，会分析，并最终找到解决方案

。

除了具体的演示，其在基准测试上的表现也值得关注。当微调所用的训练数据规模扩展到大约7.5万条轨迹（约10亿token）时，该模型在SWE-bench-Verified基准上达到了

4.5%

的pass@1通过率。

要知道，它原先在HumanEval基准上的pass@100通过率才4%。这个进步幅度相当可观。虽然绝对值仍然很低，但对于一个知识截止于1930年的模型而言，这已经足够令人惊讶。

另一个对照实验的结果更有意思。研究团队实际上还训练了一个兄弟模型，名为

talkie-web

，这个模型是在互联网数据上进行预训练的。

使用完全相同的微调配方后，talkie-web在SWE-bench-Verified上的成绩是

5.5%

。也就是说，即便为孪生兄弟赋予了互联网的海量知识，其表现也仅比“老先生”

高出1个百分点

。

上述所有结果都是可复现的。这并非什么科幻故事，团队

已经在GitHub上开源了整个项目

。他们甚至在项目说明中表达了进一步的期待：如果研究者拥有更多的计算资源，他们很希望看到1930模型与互联网模型在后训练持续扩展过程中的完整性能缩放曲线对比。这无疑比单纯展示基准分数更有探索价值。

什么是智能？

研究团队并未深入剖析现象背后的原因，但社区中的许多讨论已经指向了一个更根本的问题。

我们长期以来似乎持有一种假设：AI需要“吞噬”整个互联网的信息才能变得聪明。但如果一个只阅读过1930年以前书籍的模型，经过少量后训练就能理解现代软件工程并修复代码错误……

那么，我们对于“智能”本身的理解，是否也需要重新审视？

4.5%的pass@1通过率，放在当今最先进的模型面前确实不值一提。但它所证明的事情，可能比任何基准分数都更重要。它暗示着，一个生活在1930年代的人，如果拥有近乎相同的认知与教育框架，完全有可能理解现代的软件工程概念。

一百年前的数据量，配合上恰当的后训练方法，似乎就足以催生出符合现代定义的推理能力。

智能的关键瓶颈，或许从来就不在于预训练数据的绝对数量。

或许，我们并不需要一个训练过所有知识的模型。它可能只需要具备基础的语言理解和逻辑能力，就足够了。当整个行业在追求模型规模（Scaling）的道路上高歌猛进之时，这个实验或许能让我们稍微停下脚步，思考一些更本质的问题。

比如，智能的本质，到底是什么？

参考链接：

[1]https://x.com/rdolmedo_/status/2050665193374732430?s=20

[2]https://github.com/RicardoDominguez/talkie-coder

不好，1930年的AI都来抢程序员饭碗了

为xarray库成功打上了一个补丁。

中古硅基软件工程师

中古硅基软件工程师

talkie-1930-13b

Alec Radford

1931年1月1日之后的任何文本，一概不准进入。

被永恒地定格在了1930年12月31日的午夜。

一个针对xarray库的小补丁。

第12轮

它成功修复了问题！

在整个解题过程中展现出的思考轨迹

同样会尝试，会犯错，会分析，并最终找到解决方案

4.5%

talkie-web

5.5%

高出1个百分点

已经在GitHub上开源了整个项目

什么是智能？

什么是智能？

那么，我们对于“智能”本身的理解，是否也需要重新审视？

智能的关键瓶颈，或许从来就不在于预训练数据的绝对数量。

相关阅读

相关下载