LOGOS - 阿里开源的首个统一科学大模型
来源:互联网
时间:2026-06-20 15:59:13
LOGOS是什么
先给个直观判断:科学领域的AI模型,终于出了一个“通才”。LOGOS全称Language Of Generative Objects in Science,由阿里ATH-Token Foundry与中国人民大学高瓴人工智能学院联合开源。它是一个统一科学语法的多领域科学生成基础模型——说白了,就是把蛋白质、小分子、材料、抗体这些长得完全不一样的科学对象,统统编码成同一种Token序列,然后用纯序列的方式去理解和生成它们。结果呢?在口袋配体生成、逆合成预测、蛋白质编辑、材料生成等六大科学任务上,它要么持平、要么直接超越了那些原本专攻某一领域的专用模型。更夸张的是,它只用1B参数就干过了56B参数的大模型,验证了一句话:一个模型,搞定万千科学任务。
LOGOS的主要功能
- :给定蛋白质口袋结构,生成能精准结合的小分子药物,同时满足结合亲和力、药物相似性和合成可行性三重要求。
口袋条件配体生成
- :给定目标分子,预测合成所需前体分子,Top-1准确率达74.8%,辅助化学家设计合成路线。
逆合成预测
- :仅靠氨基酸序列预测蛋白质结合位点,无需3D结构数据,在HOLO4K数据集上Top-n准确率达58.5%。
口袋位点识别
- :生成新型金属有机框架材料,新型构建单元比例(NBB)达17.78%,较基线提升76%。
MOF材料生成
- :在Hard难度Fitness任务上得分达0.93,较基线0.34提升174%。
蛋白质编辑
- :抗体互补决定区设计AAR达79.82%,超越结构依赖的逆折叠方法。
抗体CDR设计
LOGOS的技术原理
- :设计共享词汇表,将蛋白质、小分子、材料等异构对象统一编码为离散Token序列;发明文字描述法将3D空间接触模式语法化,无需显式3D坐标即可理解复杂空间互作规律。
统一“科学语法”+空间交互离散化
- :预训练数据的序列形式等于下游任务的输入输出形式,预训练的next-token prediction等于下游条件生成目标,消除预训练与下游应用之间的gap。
形式与目标完全对齐
- :统一语法使生物、化学、材料等领域数据在同一模型框架内回流训练,实验证实多任务联合训练效果优于独立训练,实现“1+1>2”的协同效应。
跨领域知识正向迁移
如何使用LOGOS
- :访问HuggingFace(LOGOS-Hub)下载模型权重,或从GitHub(LOGOS-Hub/LOGOS)获取推理代码。
获取开源资源
- :直接复用vLLM推理加速、模型量化等成熟工程基建,无需构建独立技术栈。
基于LLM生态部署
- :将科学对象按统一语法格式化为Token序列,通过自回归生成完成口袋配体设计、逆合成预测等任务。
下游任务调用
LOGOS的核心优势
- :在口袋配体生成任务上,纯序列方法首次打败依赖3D坐标的扩散模型,证明空间结构可完全通过序列预测捕获。
纯序列范式超越3D模型
- :LOGOS-1B用1/56参数量(1B vs 8×7B)在多个任务上超越NatureLM,展现极高参数效率。
极致参数效率
- :口袋位点识别仅需氨基酸序列,无需昂贵且稀缺的3D结构数据,大幅降低药物发现门槛。
零3D坐标依赖
- :与LLM共享架构、训练范式和推理基础设施,可直接复用现有成熟工程生态,无需独立技术栈。
统一架构降低工程成本
LOGOS的项目地址
- :https://github.com/LOGOS-Hub/LOGOS
GitHub仓库
- :https://huggingface.co/LOGOS-Hub
HuggingFace模型库
- :https://arxiv.org/pdf/2606.16905
arXiv技术论文
LOGOS的同类竞品对比
| 对比维度 | LOGOS | NatureLM |
|---|---|---|
核心定位 |
统一科学语法的多领域生成基础模型 | 分子与蛋白质领域专用语言模型 |
参数规模 |
1B / 3B / 8B | 8×7B(56B) |
建模范式 |
纯序列自回归,无需3D坐标 | 依赖3D坐标与专用几何网络 |
任务覆盖 |
蛋白质、分子、材料、反应、抗体、口袋识别 | 分子生成、蛋白质结构 |
跨领域迁移 |
统一语法实现正向知识迁移 | 各领域独立建模,难以迁移 |
参数效率 |
1B参数在多个任务上超越56B模型 | 需更大参数量达到同等性能 |
工程生态 |
复用LLM基建(vLLM、量化等) | 构建独立于LLM的技术栈 |
LOGOS的应用场景
- :针对特定蛋白质靶点口袋生成候选药物分子,同时优化结合亲和力、药物相似性与合成可行性。
AI辅助药物设计
- :为有机合成提供逆合成路径预测,Top-1准确率达74.8%,减少实验试错成本。
化学合成路线规划
- :定向编辑蛋白质序列以提升稳定性或功能,Hard Fitness得分达0.93,用于酶工程与生物催化剂开发。
蛋白质工程改造
- :生成新型MOF材料,新型构建单元比例提升76%,适用于气体存储、分离与能源转化。
新材料发现
- :设计高亲和力抗体CDR区域,AAR达79.82%,加速治疗性抗体研发。
抗体药物开发