首页 > 教程攻略 > ai资讯 >GPT-5.5彻底击穿300个黑客评测任务，仅需5000万Token！

GPT-5.5彻底击穿300个黑客评测任务，仅需5000万Token！

来源：互联网时间：2026-05-28 16:49:09

澳大利亚研究机构 Lyptus Research 在5月27日发布了一份令人不安的报告——GPT-5.5 直接把他们的整套评估体系打穿了。316道进攻性网络安全任务，它解出了292道，正确率高达92.4%。

问题的严重性在于，这套评估体系用的已经是全球范围内能找到的最难的题。7个基准测试，涵盖漏洞利用、CTF夺旗、真实CVE复现，每一道题都有资深人类安全专家的完成时间当作基准线。即便如此，GPT-5.5依然展现出了顶级黑客团队的实力。剩下那24道没解出来的题，已经不足以描绘出一条有统计学意义的能力曲线。研究团队的结论很直白：这套评估方法，对这个级别的任务，“不再适用”。

时间线更能说明问题。2025年12月搭建测试体系时，选的是当时最顶尖的题目。到2026年3月第一版报告出炉，数据就出现了饱和的苗头。到了5月，饱和成了定局。六个月——从“最难”到“不够用”。

进步曲线在狂飙

真正让人倒吸一口凉气的，是这条能力曲线的斜率。

Lyptus 从2024年开始追踪，拟合出的结论触目惊心：AI的进攻性网络安全能力，每5到6个月翻一倍。2026年初，Claude Opus 4.6 的“时间地平线”是3.2小时，GPT-5.3 Codex 是3.1小时。两个月后，GPT-5.5 直接把这个数字拉到了5.1小时。如果给够算力，冲过12小时的测量上限，图表甚至都画不下了。

更值得关注的是“Token预算”这个变量。在最难的 CyberGym 基准测试上，GPT-5.5 在200万 Token 预算下的正确率是54.4%；当预算推到5000万 Token，正确率飙到了86.4%——同一个模型，涨了32个百分点。英国人工智能安全研究所（AIUK）的研究也证实了这一点：即使给到1亿 Token，能力还在涨，根本看不到平台期。

也就是说，所有公开的基准测试成绩，都只是在有限预算下跑出来的。真实能力的天花板，远比账面数字要高得多。

强大模型在受控

头部实验室已经被迫做出了选择。

Anthropic 在4月发布了 Claude Mythos Preview，但直接决定不公开。理由很直白：网络安全能力过强。他们同步推出了 Project Glasswing，将 Mythos 部署给关键基础设施的防御方使用。OpenAI 则给 GPT-5.5 的网络安全能力评级为“High”，仅比最高级的“Critical”低一档，所有攻击相关的能力都通过“Trusted Access for Cyber”门控。METR 对 Mythos 的独立评估也撞上了同一堵墙，拟合出的时间地平线至少16小时，但他们连对这个数字都不敢给出点估计，只留下一句“应保持谨慎”。

控制谁能用，是目前唯一的策略。但窗口正在急剧缩小。

Lyptus 测量了一个叫“适应缓冲期”的指标，也就是闭源前沿能力传导到开源模型的时间差。在进攻性网络安全领域，这个差距大约在5.7到13.1个月之间。按这个速度推算，Mythos 和 GPT-5.5 级别的攻击能力，年内就可能以开源的形式落到任何人手里。

尺子被干碎了

回到最核心的问题。这件事里最让人不安的部分，并非模型有多强，而是：现在没有谁能准确说出，大模型的上限到底在哪里。

“时间地平线”方法论本身逻辑很简单：用比模型能力更难的任务来锚定曲线的拐点。但当模型把所有任务都做完了，拐点就消失了，曲线再也无法拟合。评估体系不是被证伪了，而是被能力增长的速度远远甩在了后面。

要造出更难的测试，需要更多的时间和人力。但模型的能力每半年翻一倍，测试的开发周期远长于此。更关键的是，英国人工智能安全研究所的发现揭示了一个更残酷的事实：只要攻击方愿意多烧算力，就算有更难的题，照样能做穿。

评估追不上能力。这个结构性困境，放在更大的框架下看，信号已经相当明确了。一个高度专业化的领域里，人类为AI能力设定的标尺，已经被干碎了。网络安全恰好是最容易量化的领域之一——漏洞找到或没找到，系统攻破或没攻破，结果清清楚楚。连这种硬指标领域的评估都跟不上了，那些更模糊、更难量化的能力维度呢？

每6个月翻一倍的增速如果维持下去，一年后的能力是今天的4倍，两年后是16倍。通往AGI乃至ASI的路上，被干碎的，不会只有这一把尺子。

看不到边界，比边界本身更危险。

参考资料：
https://lyptusresearch.org/research/gpt-5-5-saturates-offensive-cyber-time-horizons

GPT-5.5彻底击穿300个黑客评测任务，仅需5000万Token！

进步曲线在狂飙

强大模型在受控

尺子被干碎了

相关阅读

相关下载