GPT-5.5彻底击穿300个黑客评测任务,仅需5000万Token
316 道进攻性网络安全任务,GPT-5.5 解出了 292 道,正确率高达 92.4%。这份由澳大利亚研究机构 Lyptus Research 在 5 月 27 日发布的报告,直接宣告了 GPT-5.5 让他们的整套评估体系彻底饱和。

测试覆盖了 7 个基准,从漏洞利用、CTF 夺旗到真实 CVE 复现,每道题都配有人类安全专家的完成时间作为基线。GPT-5.5 展现出的能力,已经可以媲美顶级黑客团队。更关键的是,剩下的那 24 道未解难题,已经不足以画出一条有统计意义的能力曲线。研究团队的判断直截了当——这套评估方法对这类任务"不再适用"。
往回看,2025 年 12 月开始搭建这套测试时,Lyptus 团队选择的是当时全球能找到的最难的题目。到 2026 年 3 月第一版报告出炉,数据就已经出现了饱和的苗头。再到 5 月,饱和变成了板上钉钉的事实。六个月的时间,从"最难"到"不够用"。
进步曲线在狂飙
进步曲线在狂飙
真正值得警惕的,是这条能力曲线的斜率。先说几个核心判断:Lyptus 从 2024 年开始系统追踪,拟合出的结论令人震惊——AI 的进攻性网络安全能力每 5 到 6 个月就翻一倍。

不妨看几组具体数据:2026 年初,Claude Opus 4.6 的时间地平线是 3.2 小时,GPT-5.3 Codex 是 3.1 小时。仅仅两个月后,GPT-5.5 直接拉到了 5.1 小时。而且,只要给够算力,冲过 12 小时的测量上限都不是问题,图表甚至画不下。

而另一个变量——Token 预算——更能说明问题。GPT-5.5 在最难的基准 CyberGym 上,200 万 Token 预算下的正确率是 54.4%;当预算推到 5000 万 Token,正确率飙升到 86.4%。

同一个模型,仅仅因为算力投入的增加,成绩就涨了 32 个百分点。

英国人工智能安全研究所(AIUK AI Safety Institute)的研究也给出了类似结论:即使把 Token 预算推到 1 亿,能力仍在增长,完全看不到平台期。也就是说,所有公开的基准测试成绩,都只是在有限预算下跑出来的结果。真实能力的天花板,远比账面数字要高。
强大模型在受控
强大模型在受控
面对这样的能力飞跃,头部实验室已经被迫做出了选择。Anthropic 在 4 月发布了 Claude Mythos Preview 模型,但决定不公开——理由是网络安全能力过强,不适合直接开放。作为配套,他们同时推出了 Project Glasswing,将 Mythos 部署给关键基础设施的防御方使用。

OpenAI 则给 GPT-5.5 的网络安全能力评级为"High",仅比最高级"Critical"低一档,所有攻击相关能力都通过"Trusted Access for Cyber"门控系统进行管控。METR 对 Mythos 的独立评估同样撞上了能力的顶棚——拟合出的时间地平线至少 16 小时,但他们对这个数字不敢给出点估计,只表示"应保持谨慎"。
控制谁能用,是目前唯一能拿得出手的策略。但留给决策者的窗口正在快速缩小。Lyptus 测量了一个至关重要的指标——"适应缓冲期":闭源前沿能力传导到开源模型的时间差。在进攻性网络安全领域,这个差距大约在 5.7 到 13.1 个月之间。按这个速度推算,Mythos 和 GPT-5.5 级别的攻击能力,年内就可能以开源形式落到任何人手里。
尺子被干碎了
尺子被干碎了
回到最核心的问题:没人能准确说出现在大模型的上限到底有多强。这才是最让人不安的部分。
时间地平线方法论的设计逻辑很简单——用比模型能力更难的任务来锚定曲线的拐点。但当模型把所有任务都做完,拐点便消失了,曲线无法拟合。评估体系不是被证伪了,而是被能力增长甩在了身后。

要造出更难的测试,需要更多的时间和人力。可现实是,模型能力每半年翻一倍,而测试开发周期远长于此。更关键的是英国人工智能安全研究所的发现:只要攻击方愿意多烧算力,就算有更难的题,照样能做穿。评估追不上能力——这个结构性困境已经非常明显。
放到更大的框架下看,信号已经相当明确。一个高度专业化的领域里,人类为 AI 能力设定的标尺已经被干得粉碎。

网络安全恰好是最容易量化的领域之一——有明确的成功判据:漏洞找到或没找到,系统攻破或没攻破。连这种硬指标领域的评估都跟不上了,那些更模糊、更难量化的能力维度呢?每 6 个月翻一倍的增速如果维持下去,一年后的能力就是今天的 4 倍,两年后 16 倍。通往 AGI 乃至 ASI 的路上,被干碎的不会只有这一把尺子。看不到边界,比边界本身更危险。