GPT-5.5彻底击穿300个黑客评测任务,仅需5000万Token!
澳大利亚研究机构 Lyptus Research 在5月27日发布了一份令人不安的报告——GPT-5.5 直接把他们的整套评估体系打穿了。316道进攻性网络安全任务,它解出了292道,正确率高达92.4%。
问题的严重性在于,这套评估体系用的已经是全球范围内能找到的最难的题。7个基准测试,涵盖漏洞利用、CTF夺旗、真实CVE复现,每一道题都有资深人类安全专家的完成时间当作基准线。即便如此,GPT-5.5依然展现出了顶级黑客团队的实力。剩下那24道没解出来的题,已经不足以描绘出一条有统计学意义的能力曲线。研究团队的结论很直白:这套评估方法,对这个级别的任务,“不再适用”。
时间线更能说明问题。2025年12月搭建测试体系时,选的是当时最顶尖的题目。到2026年3月第一版报告出炉,数据就出现了饱和的苗头。到了5月,饱和成了定局。六个月——从“最难”到“不够用”。
进步曲线在狂飙
真正让人倒吸一口凉气的,是这条能力曲线的斜率。
Lyptus 从2024年开始追踪,拟合出的结论触目惊心:AI的进攻性网络安全能力,每5到6个月翻一倍。2026年初,Claude Opus 4.6 的“时间地平线”是3.2小时,GPT-5.3 Codex 是3.1小时。两个月后,GPT-5.5 直接把这个数字拉到了5.1小时。如果给够算力,冲过12小时的测量上限,图表甚至都画不下了。
更值得关注的是“Token预算”这个变量。在最难的 CyberGym 基准测试上,GPT-5.5 在200万 Token 预算下的正确率是54.4%;当预算推到5000万 Token,正确率飙到了86.4%——同一个模型,涨了32个百分点。英国人工智能安全研究所(AIUK)的研究也证实了这一点:即使给到1亿 Token,能力还在涨,根本看不到平台期。
也就是说,所有公开的基准测试成绩,都只是在有限预算下跑出来的。真实能力的天花板,远比账面数字要高得多。
强大模型在受控
头部实验室已经被迫做出了选择。
Anthropic 在4月发布了 Claude Mythos Preview,但直接决定不公开。理由很直白:网络安全能力过强。他们同步推出了 Project Glasswing,将 Mythos 部署给关键基础设施的防御方使用。OpenAI 则给 GPT-5.5 的网络安全能力评级为“High”,仅比最高级的“Critical”低一档,所有攻击相关的能力都通过“Trusted Access for Cyber”门控。METR 对 Mythos 的独立评估也撞上了同一堵墙,拟合出的时间地平线至少16小时,但他们连对这个数字都不敢给出点估计,只留下一句“应保持谨慎”。
控制谁能用,是目前唯一的策略。但窗口正在急剧缩小。
Lyptus 测量了一个叫“适应缓冲期”的指标,也就是闭源前沿能力传导到开源模型的时间差。在进攻性网络安全领域,这个差距大约在5.7到13.1个月之间。按这个速度推算,Mythos 和 GPT-5.5 级别的攻击能力,年内就可能以开源的形式落到任何人手里。
尺子被干碎了
回到最核心的问题。这件事里最让人不安的部分,并非模型有多强,而是:现在没有谁能准确说出,大模型的上限到底在哪里。
“时间地平线”方法论本身逻辑很简单:用比模型能力更难的任务来锚定曲线的拐点。但当模型把所有任务都做完了,拐点就消失了,曲线再也无法拟合。评估体系不是被证伪了,而是被能力增长的速度远远甩在了后面。
要造出更难的测试,需要更多的时间和人力。但模型的能力每半年翻一倍,测试的开发周期远长于此。更关键的是,英国人工智能安全研究所的发现揭示了一个更残酷的事实:只要攻击方愿意多烧算力,就算有更难的题,照样能做穿。
评估追不上能力。这个结构性困境,放在更大的框架下看,信号已经相当明确了。一个高度专业化的领域里,人类为AI能力设定的标尺,已经被干碎了。网络安全恰好是最容易量化的领域之一——漏洞找到或没找到,系统攻破或没攻破,结果清清楚楚。连这种硬指标领域的评估都跟不上了,那些更模糊、更难量化的能力维度呢?
每6个月翻一倍的增速如果维持下去,一年后的能力是今天的4倍,两年后是16倍。通往AGI乃至ASI的路上,被干碎的,不会只有这一把尺子。
看不到边界,比边界本身更危险。
参考资料:
https://lyptusresearch.org/research/gpt-5-5-saturates-offensive-cyber-time-horizons