OpenAI 发布 GeneBench-Pro 基准测试,提升 AI 模型生物学分析能力!
生物科技发展日新月异,可面对海量、复杂又时常残缺不全的实验数据,研究者们常常感到力不从心。传统的分析工具在理想环境下表现尚可,一旦遇到真实科研中的“一团乱麻”——数据不完整、背景信息模糊、各种干扰并存——就容易失灵。怎么办?OpenAI 最近推出了一套全新的基准测试——GeneBench-Pro,目标很明确:检验 AI 到底能不能像真正的科研人员一样,在混乱中理出头绪,做出靠谱的判断。
GeneBench-Pro 和过去那些基准测试完全不是一个思路。传统测试更像是在考“记忆力”和“流程熟练度”:给的数据整整齐齐,任务路径固定,模型只要按部就班就能拿高分。而 GeneBench-Pro 反其道而行之,它刻意制造“模糊、不完整、带有干扰”的数据环境,让模型自己去探索、分析、纠偏。说白了,就是要看它在真实科研场景里,能不能扛得住“脏数据”的考验。

这套测试的覆盖面相当广,涵盖了基因组学、定量生物学和转化医学三大领域,总共 129 道题目,具体又深入到统计遗传学、群体遗传学、功能基因组学、蛋白质组学等子方向。每道题都给模型提供一套贴近真实实验的数据集,再配上简短的背景说明和具体问题,要求模型自己选择分析方法、调整策略,最后给出结论——整个过程基本上就是一次科研模拟。
值得一提的是,OpenAI 在设计时特意采用了合成数据。这么做能有效避免传统长流程测试中常见的评分偏差——因为数据生成过程可以被完全控制,模型到底是真的理解了问题,还是靠“猜”、靠“走捷径”答对的,一眼就能看出来。相比之下,很多传统测试往往混淆了“真懂”和“蒙对”,分数水份不小。
目前,OpenAI 已经在 Hugging Face 平台上开源了 10 道具有代表性的示例题,外部研究人员可以通过交互界面直接上手体验。按照计划,后续还会把其中 50 道题交给 Artificial Analysis 做独立评测,到时候不同模型在这个基准上的真实水平,就可以公开比一比了。