大规模基础模型的缩放与量化
摘要

在网络生物学领域,基础模型正成为变革性的工具。通过对海量生物数据进行预训练,这些模型能够习得通用的生物学知识,再通过迁移学习,在各种下游任务中实现精准的、上下文感知的预测。不过,一个现实挑战也随之而来:随着预训练数据的指数级增长,模型规模必然扩大,而这又反过来增加了下游任务微调和推理所需的计算资源,形成了一个“幸福的烦恼”。
为了深入探索这个问题,一项研究首先构建了一个超大规模的数据集——Genecorpus-104M,它包含了约1.04亿个人类单细胞转录组数据。基于此,研究者预训练了一系列规模递增的模型,并首次定义了转录组掩码学习任务的“缩放定律”。实验揭示了一个关键发现:模型量化技术,特别是4位精度量化,能够在几乎不损失预测精度的情况下,大幅压缩计算成本。量化后的模型,其微调时间可降至全精度模型的15%,内存占用也仅为34%。这无疑为在资源受限环境下部署强大的生物学基础模型,开辟了一条高效可行的路径。
主要内容
绘制基因网络图谱,是发现关键调控因子和潜在疗法的基石。传统方法严重依赖大量转录组数据来推断基因间的关联,这在数据稀缺的场景(比如研究罕见疾病)中往往束手无策。迁移学习的思路,则巧妙地绕开了这个瓶颈:先利用大规模通用数据集预训练一个“通才”模型,让它掌握基础知识,再将其适配到无数个具体的“专才”任务上。
此前,已有研究利用约3000万个单细胞转录组,预训练出了名为Geneformer的基础模型。而最新的工作,则将这个预训练语料库扩大到了新的量级——Genecorpus-104M,涵盖了来自多种组织和疾病状态的约1.04亿个细胞。为了匹配当前单细胞测序技术能检测到更多基因的进步,模型的输入容量也同步扩展到了4096个基因。
接下来,研究者训练了多个参数规模不同的Geneformer模型。结果清晰地展示了一条“缩放定律”:参数更多的模型,学习每个数据单元的效率更高,其整体性能随着参数增加呈幂律提升。这与自然语言处理等领域的观察不谋而合,说明基础模型的能力扩展规律具有一定的普适性。
这种规模优势在零样本预测任务中体现得淋漓尽致。在基因层面的各类任务中,参数量最大的模型(3.16亿参数)的表现,全面超越了需要全量数据微调的替代方法。这对于那些根本收集不到足够任务特定数据的领域(如罕见病研究),价值非凡。
当然,大模型也带来了大开销。为了破解微调和推理时的资源困局,研究引入了4位精度的模型量化技术(采用QLoRA方法)。效果是立竿见影的:
- :在相同批次大小下,量化模型的微调时间骤降至全精度模型的15%,内存占用也仅需34%。实际上,由于内存压力大减,实践中可以使用更大的批次,从而进一步缩短总训练时间。
效率飞跃
- :尽管计算需求暴降,量化模型在基因和细胞层面的少样本、零样本预测任务中,精度与全精度模型几乎持平,没有统计学上的显著差异。
精度无损
- :量化对模型内部学到的基因和细胞嵌入向量影响微乎其微,其变化远小于不同细胞类型或基因本身带来的生物学差异。量化模型同样能可靠地用于衡量模拟基因敲除实验引起的嵌入空间变化。
知识保留
在细胞层面任务中,最大模型的零样本嵌入空间在区分不同组织、细胞类型和疾病状态时表现最佳。经过微调后,量化模型在细胞分类任务上的预测精度,与全精度模型完全匹配。
至于推理阶段,量化模型的优势依旧明显:推理时间仅为全精度模型的33%,内存占用为53%。
总而言之,模型量化堪称一项“鱼与熊掌兼得”的策略。它在最大限度保留模型所学生物学知识的前提下,显著降低了计算成本和时间消耗,极大地拓展了大规模生物学基础模型的应用边界和可及性。