百图生科技术副总裁张晓明:经过几年发展,涌现出不少蛋白质基础大模型,但缺少全面权威的评测方式,无法指明模型进一步的优化方向,百图生科的蛋白质大模型在评估模型性能和应用价值方面有着深厚的积累,如今将PFMBench及InverseFoldingEvaluation开源发布,欢迎更多研究者与我们同行,共同推动蛋白质大模型可重复、可比较、可落地的评价生态。百图生科下一代的蛋白质大模型即将发布,也敬请期待。
行业痛点:模型井喷,评测缺位

PFMBench:首套蛋白质基础模型“全科检验”标准
PFMBench是当前最先进的蛋白质基础模型评估基准之一,涵盖38项任务,支持17个主流PFM模型,旨在为模型评估、选择与开发提供系统化参考。

图2:PFMBench与以往评测相比在任务、模型、协议、和结果分析上全面提升
覆盖广泛的任务体系:任务覆盖蛋白质注释、溶解度、定位、突变效应、分子互作、结构预测等八大类别共计38项任务,通过任务间相关性分析筛选出11个代表性任务,实现从序列到结构再到功能的全面能力评估。
评估模型数量最多:评估纳入了共17个模型,特别是多模态蛋白质模型,并通过结果稳定性评估,筛选出12个性能具区分性的核心模型。
统一评估协议:提出可落地、可复现的统一协议,推荐基准模型(如ESM2、ProTrek)、代表任务集以及高效调参策略(如Adapter、DoRA),方便研究者快速上手与横向对比。
用户友好的接口设计:通过遵循统一的接口协议对各类模型进行模块化封装,PFMBench支持将新模型以“即插即用”的方式无缝集成到评估流程中。研究者只需轻量配置,即可快速获取其跨任务的性能全景视图。

图3:PFMBench的总体框架
核心洞察:
多模态潜力大但训练难:多模态PFMs(如ProTrek)展现出更高的性能潜力,能更好地建模蛋白质的语义与功能信息,但其训练和泛化难度也显著增加,部分模型甚至逊于序列模型。
参数“军备竞赛”效果有限:仅靠堆叠参数(如ESM2-15B),性能提升微弱。预训练目标设计与数据质量才是胜负手。
现有零样本基准不靠谱:现有零样本基准(如ProteinGym)与有监督任务表现高度不相关,难以作为可靠参考。
新指标MID更好:为填补零样本评估空白,PFMBench引入基于MSA样本的互信息差(MID)指标,用于衡量模型在无监督条件下的表征质量。

产业落地:抗体设计迎来专属“评测官”
聚焦药物研发中蛋白质逆折叠的核心场景,我们在PLOS ONE发布了一个瞄准真实战场的评估体系:《Benchmarking inverse folding models for antibody CDR sequence design》

模型间性能互有侧重:AntiFold在Fab抗体的整体设计精度上表现最优,尤其擅长于结构保守区域的建模;但在界面关键残基的敏感性方面不及ESM-IF等模型。LM-Design在VHH抗体设计任务中表现最为均衡。 通用蛋白设计模型存在泛化局限:ProteinMPNN和ESM-IF等未针对抗体训练的模型显现出泛化能力不足。 序列recovery不足以全面评估模型能力:我们发现单一的recovery指标无法揭示模型在功能关键位点的设计能力,强调评估体系的多维化必要性。 抗体专项训练显著提升性能:模型若基于高质量的抗体结构数据进行专项训练,或整合蛋白语言模型的语义特征,能显著提升设计精度与功能一致性。因此,实际抗体药物设计中应优先采用此类专用模型。
了解更多,项目主页:
PFMBench:
http://github.com/biomap-research/PFMBench
InverseFoldingEvaluation:
http://github.com/biomap-research/InverseFoldingEvaluation
暂无评论