• ag官方电子平台

    洞察市场格局
    解锁药品研发情报

    客服电话

    400-9696-311
    医药数据查询

    重磅开源:蛋白质基础模型“评测标尺”-PFMBench

    蛋白质
    06/30
    61

    百图生科技术副总裁张晓明:经过几年发展,涌现出不少蛋白质基础大模型,但缺少全面权威的评测方式,无法指明模型进一步的优化方向,百图生科的蛋白质大模型在评估模型性能和应用价值方面有着深厚的积累,如今将PFMBench及InverseFoldingEvaluation开源发布,欢迎更多研究者与我们同行,共同推动蛋白质大模型可重复、可比较、可落地的评价生态。百图生科下一代的蛋白质大模型即将发布,也敬请期待。

    行业痛点:模型井喷,评测缺位

    近年来,蛋白质基础模型(Protein Foundation Models, PFMs)作为蛋白质科学与工程的重要底座,正在以前所未有的速度快速演进。从早期的ESM-1b到ProtT5、ESM3乃至新兴的多模态模型,PFM在结构预测、功能注释、分子设计等任务中展现出强大潜力。然而,一个核心问题逐渐凸显:
    如何公平、系统地评价这些基础模型的真实能力?
    现有基准如TAPE和PEER任务数量有限,模型规模和多样性不足,无法全面反映现代PFMs在广泛生物任务中的泛化能力。特别地,对于近期涌现的多模态基础模型,如ESM3,大家对其在论文之外的更多任务的能力上是否超越前代模型(如ESM2)仍未有清晰答案。
    因此,构建一个覆盖多任务、多模型、多模态的评估基准,已成为推动PFM研究健康发展的关键基础设施。近日,百图生科首席科学家、西湖大学讲席教授李子青等人推出了首个全面的蛋白质基础模型基准测试工具——PFMBench。该研究以《PFMBench: Protein Foundation Model Benchmark》为题发表在了预印本平台arXiv上。
    图1:蛋白基础模型在预测任务中的表现

    PFMBench:首套蛋白质基础模型“全科检验”标准

    PFMBench是当前最先进的蛋白质基础模型评估基准之一,涵盖38项任务,支持17个主流PFM模型,旨在为模型评估、选择与开发提供系统化参考。

    图2:PFMBench与以往评测相比在任务、模型、协议、和结果分析上全面提升

    • 覆盖广泛的任务体系:任务覆盖蛋白质注释、溶解度、定位、突变效应、分子互作、结构预测等八大类别共计38项任务,通过任务间相关性分析筛选出11个代表性任务,实现从序列到结构再到功能的全面能力评估。

    • 评估模型数量最多:评估纳入了共17个模型,特别是多模态蛋白质模型,并通过结果稳定性评估,筛选出12个性能具区分性的核心模型

    • 统一评估协议:提出可落地、可复现的统一协议,推荐基准模型(如ESM2、ProTrek)、代表任务集以及高效调参策略(如Adapter、DoRA),方便研究者快速上手与横向对比。

    • 用户友好的接口设计:通过遵循统一的接口协议对各类模型进行模块化封装,PFMBench支持将新模型以即插即用的方式无缝集成到评估流程中。研究者只需轻量配置,即可快速获取其跨任务的性能全景视图。

    图3:PFMBench的总体框架

    核心洞察:

    • 多模态潜力大但训练难:多模态PFMs(如ProTrek)展现出更高的性能潜力,能更好地建模蛋白质的语义与功能信息,但其训练和泛化难度也显著增加,部分模型甚至逊于序列模型。

    • 参数军备竞赛效果有限:仅靠堆叠参数(如ESM2-15B),性能提升微弱。预训练目标设计与数据质量才是胜负手。

    • 现有零样本基准不靠谱:现有零样本基准(如ProteinGym)与有监督任务表现高度不相关,难以作为可靠参考。

    • 新指标MID更好:为填补零样本评估空白,PFMBench引入基于MSA样本的互信息差(MID)指标,用于衡量模型在无监督条件下的表征质量。

    图4:在各任务中的模型排序
    在构建PFM评测体系的同时,我们深知模型在关键生物医药场景的实际落地能力至关重要。药物研发,尤其是治疗性抗体开发,是蛋白质工程最具价值的应用方向之一。其中逆折叠(Inverse Folding)—— 即根据目标三维结构设计出可行的氨基酸序列 —— 是抗体设计的核心挑战。为了精准评估现有模型在这一真实战场上的表现,推动专用工具的进步,我们深入抗体设计领域,构建了专门的评测基准。

    产业落地:抗体设计迎来专属“评测官”

    聚焦药物研发中蛋白质逆折叠的核心场景,我们在PLOS ONE发布了一个瞄准真实战场的评估体系:《Benchmarking inverse folding models for antibody CDR sequence design》

    图5:抗体反向折叠模型基准测试与评估框架概述
    我们系统性地评估了当前主流结构到序列的蛋白设计模型(ProteinMPNN、ESM-IF、LM-Design、AntiFold)在抗体CDR区序列设计任务中的性能差异,并建立了一个具有实践价值的、可推广的基准评测体系。不同于传统评估方法仅依赖于CDR序列recovery指标,我们引入了多个更具功能相关性的评估维度,包括抗原-抗体界面残基(特别是对结合起到关键作用的残基)的设计准确性、序列中氨基酸使用的偏倚程度、以及对突变敏感性的预测能力等,从多个角度系统揭示各模型的优劣势。

    主要发现包括:
    • 模型间性能互有侧重:AntiFold在Fab抗体的整体设计精度上表现最优,尤其擅长于结构保守区域的建模;但在界面关键残基的敏感性方面不及ESM-IF等模型。LM-Design在VHH抗体设计任务中表现最为均衡。
    • 通用蛋白设计模型存在泛化局限:ProteinMPNN和ESM-IF等未针对抗体训练的模型显现出泛化能力不足。
    • 序列recovery不足以全面评估模型能力:我们发现单一的recovery指标无法揭示模型在功能关键位点的设计能力,强调评估体系的多维化必要性。
    • 抗体专项训练显著提升性能:模型若基于高质量的抗体结构数据进行专项训练,或整合蛋白语言模型的语义特征,能显著提升设计精度与功能一致性。因此,实际抗体药物设计中应优先采用此类专用模型。

    PFMBench与InverseFoldingEvaluation开源,为蛋白质模型提供了新的评测标尺。诚邀全球研究者使用、反馈并共同完善这一基准,推动模型的公平比较与优化升级。让我们携手,加速蛋白质智能技术在真实世界的突破与应用!






    了解更多,项目主页:

    • PFMBench:

      http://github.com/biomap-research/PFMBench

    • InverseFoldingEvaluation:

      http://github.com/biomap-research/InverseFoldingEvaluation


    *版权声明:本网站所转载的文章,均来自互联网,旨在传递更多信息。鉴于互联网的开放性和文章创作的复杂性,我们无法保证所转载的所有文章均已获得原作者的明确授权。如果您是原作者或拥有相关权益,请与我们联系,我们将立即删除未经授权的文章。本网站转载文章仅为方便读者查阅和了解相关信息,并不代表我们认同其观点和内容。读者应自行判断和鉴别转载文章的真实性、合法性和有效性。
    AI+生命科学全产业链智能数据平台

    收藏

    发表评论
    评论区(0
    • 暂无评论

      ag官方电子平台企业版
      50亿+条医药数据随时查
      7天免费试用
      体验产品
      摩熵数科开放平台
      十五五战略规划

      最新报告

      更多
      • 摩熵咨询医药行业观察周报(2025.07.28-2025.08.03)
        2025-08-03
        23页
      • 2025年7月仿制药月报
        2025-07-31
        16页
      • 2025年7月ag官方电子平台健康投融资&交易月报
        2025-07-31
        20页
      • 2025年7月全球在研新药月报
        2025-07-31
        38页
      • 摩熵咨询医药行业观察周报(2025.07.21-2025.07.27)
        2025-07-27
        24页
      专利数据服务
      添加收藏
        新建收藏夹
        取消
        确认