首页 > 教程攻略 > ai资讯 >GPT-5.5彻底击穿300个黑客评测任务，仅需5000万Token

GPT-5.5彻底击穿300个黑客评测任务，仅需5000万Token

来源：互联网时间：2026-05-29 11:12:02

316 道进攻性网络安全任务，GPT-5.5 解出了 292 道，正确率高达 92.4%。这份由澳大利亚研究机构 Lyptus Research 在 5 月 27 日发布的报告，直接宣告了 GPT-5.5 让他们的整套评估体系彻底饱和。

测试覆盖了 7 个基准，从漏洞利用、CTF 夺旗到真实 CVE 复现，每道题都配有人类安全专家的完成时间作为基线。GPT-5.5 展现出的能力，已经可以媲美顶级黑客团队。更关键的是，剩下的那 24 道未解难题，已经不足以画出一条有统计意义的能力曲线。研究团队的判断直截了当——这套评估方法对这类任务"不再适用"。

往回看，2025 年 12 月开始搭建这套测试时，Lyptus 团队选择的是当时全球能找到的最难的题目。到 2026 年 3 月第一版报告出炉，数据就已经出现了饱和的苗头。再到 5 月，饱和变成了板上钉钉的事实。六个月的时间，从"最难"到"不够用"。

进步曲线在狂飙

真正值得警惕的，是这条能力曲线的斜率。先说几个核心判断：Lyptus 从 2024 年开始系统追踪，拟合出的结论令人震惊——AI 的进攻性网络安全能力每 5 到 6 个月就翻一倍。

不妨看几组具体数据：2026 年初，Claude Opus 4.6 的时间地平线是 3.2 小时，GPT-5.3 Codex 是 3.1 小时。仅仅两个月后，GPT-5.5 直接拉到了 5.1 小时。而且，只要给够算力，冲过 12 小时的测量上限都不是问题，图表甚至画不下。

而另一个变量——Token 预算——更能说明问题。GPT-5.5 在最难的基准 CyberGym 上，200 万 Token 预算下的正确率是 54.4%；当预算推到 5000 万 Token，正确率飙升到 86.4%。

同一个模型，仅仅因为算力投入的增加，成绩就涨了 32 个百分点。

英国人工智能安全研究所（AIUK AI Safety Institute）的研究也给出了类似结论：即使把 Token 预算推到 1 亿，能力仍在增长，完全看不到平台期。也就是说，所有公开的基准测试成绩，都只是在有限预算下跑出来的结果。真实能力的天花板，远比账面数字要高。

强大模型在受控

面对这样的能力飞跃，头部实验室已经被迫做出了选择。Anthropic 在 4 月发布了 Claude Mythos Preview 模型，但决定不公开——理由是网络安全能力过强，不适合直接开放。作为配套，他们同时推出了 Project Glasswing，将 Mythos 部署给关键基础设施的防御方使用。

OpenAI 则给 GPT-5.5 的网络安全能力评级为"High"，仅比最高级"Critical"低一档，所有攻击相关能力都通过"Trusted Access for Cyber"门控系统进行管控。METR 对 Mythos 的独立评估同样撞上了能力的顶棚——拟合出的时间地平线至少 16 小时，但他们对这个数字不敢给出点估计，只表示"应保持谨慎"。

控制谁能用，是目前唯一能拿得出手的策略。但留给决策者的窗口正在快速缩小。Lyptus 测量了一个至关重要的指标——"适应缓冲期"：闭源前沿能力传导到开源模型的时间差。在进攻性网络安全领域，这个差距大约在 5.7 到 13.1 个月之间。按这个速度推算，Mythos 和 GPT-5.5 级别的攻击能力，年内就可能以开源形式落到任何人手里。

尺子被干碎了

回到最核心的问题：没人能准确说出现在大模型的上限到底有多强。这才是最让人不安的部分。

时间地平线方法论的设计逻辑很简单——用比模型能力更难的任务来锚定曲线的拐点。但当模型把所有任务都做完，拐点便消失了，曲线无法拟合。评估体系不是被证伪了，而是被能力增长甩在了身后。

要造出更难的测试，需要更多的时间和人力。可现实是，模型能力每半年翻一倍，而测试开发周期远长于此。更关键的是英国人工智能安全研究所的发现：只要攻击方愿意多烧算力，就算有更难的题，照样能做穿。评估追不上能力——这个结构性困境已经非常明显。

放到更大的框架下看，信号已经相当明确。一个高度专业化的领域里，人类为 AI 能力设定的标尺已经被干得粉碎。

网络安全恰好是最容易量化的领域之一——有明确的成功判据：漏洞找到或没找到，系统攻破或没攻破。连这种硬指标领域的评估都跟不上了，那些更模糊、更难量化的能力维度呢？每 6 个月翻一倍的增速如果维持下去，一年后的能力就是今天的 4 倍，两年后 16 倍。通往 AGI 乃至 ASI 的路上，被干碎的不会只有这一把尺子。看不到边界，比边界本身更危险。

GPT-5.5彻底击穿300个黑客评测任务，仅需5000万Token

进步曲线在狂飙

进步曲线在狂飙

强大模型在受控

强大模型在受控

尺子被干碎了

尺子被干碎了

相关阅读

相关下载