耗时N年→一日万亿:清华AI重塑找药逻辑,为“不可成药”靶点点亮曙光
药物研发,一场人类与疾病最艰难的“持久战”。
我们面对的是一个庞大而晦暗的“目标宇宙”——人体内数以万计的疾病相关蛋白中,超过90%仍是无药可用的“暗物质”。
清华大学智能产业研究院(AIR)联合生命学院、化学系团队创新研发AI驱动的超高通量药物虚拟筛选平台DrugCLIP。
利用AI助力药物虚拟筛选提速百万倍,全球最大规模数据库免费开放。研究成果以《深度对比学习实现基因组级别药物虚拟筛选》(Deep contrastive learning enables genome-wide virtual screening)为题在线发表于《科学》(Science)
90%的蛋白靶点无药可用
传统筛选“慢、难、窄”
药物研发如同一场“大海捞针”,尤其在面对人体内约2万个蛋白质靶点时,传统方法显得力不从心。目前,仅有约10%的蛋白靶点拥有成熟药物,剩余90%仍处于“无药可靶”的困境。
其根本原因可归结为三点:
慢——传统分子对接方法虽一次计算仅需几秒,但面对大规模筛选(如1万个靶点×10亿分子)需完成10¹³次计算,即便用最先进工具也需2亿CPU天。
难——许多疾病相关蛋白缺乏实验测定的三维结构,传统方法无从下手;且有效分子常被海量无效分子淹没,难以识别。
窄——受限于算力与成本,现有研究多集中于热门靶点,难以实现全基因组规模的系统性筛选。

DrugCLIP——
AI驱动的超高通量药物虚拟筛选平台
清华大学团队研发的DrugCLIP平台,创新性地将药物筛选转化为“AI画像+极速配对”模式。
平台通过对比学习训练两个AI编码器,分别提取蛋白质结合口袋与化学分子的特征向量,使能结合的蛋白-分子对特征相似,不能结合的特征相远。
平台创新性地采用550万组“假口袋-假分子”片段进行预训练,再以真实数据微调,使其能精准理解三维结构下的相互作用规律。

日处理10万亿次
首完成人类基因组规模筛选
在128核CPU+8张GPU的配置下,DrugCLIP日处理能力高达10万亿次蛋白-分子配对,较传统方法提升百万倍。在标准测试集DUD-E和LIT-PCBA中,其筛选效能与速度均显著优于现有分子对接工具与AI模型。
实验验证成果显著:
针对抑郁症相关蛋白,从78个筛选分子中找出8个活性分子,最优结合力达21nM(低于100nM即为优秀)。
在NET靶点上,从160万分子中筛出约100个高评分分子,其中15% 为有效抑制剂,12个结合力优于已上市药物安非他酮。针对癌症与帕金森相关靶点TRIP12,从160万分子中筛出约50个候选,其中10个经实验证实具有结合能力。
平台已首次完成人类基因组规模虚拟筛选,覆盖约——1万个蛋白靶点、2万个结合口袋,筛选5亿余分子,富集出200万余个高潜力活性分子,相当于为近半人类蛋白质储备了“药物种子”。

架起从结构预测到药物发现的桥梁
相较于传统及同类AI方法,DrugCLIP构筑了清晰的竞争壁垒:
真正的“结构驱动”AI:
深度融合3D结构预训练与多模态编码,直接在三维空间层面精准建模相互作用,不依赖一维序列或简化模型,理解更本质。
卓越的泛化与鲁棒性:
对蛋白质结构预测误差、全新蛋白家族、以及化学空间中外来分子均表现出强大适应力,克服了AI模型常见的“场景迁移失灵”难题。
无缝衔接AlphaFold:
能够直接、高效地对AlphaFold2等工具预测的蛋白结构进行高可信度筛选,打通了从“结构解析”到“药物发现”最关键、也最困难的实践通道,释放了海量预测结构的应用价值。

开源数据、跨界协同,构建研发生态
DrugCLIP的推广与应用秉持开放与合作理念:
核心数据开放:
项目产生的全基因组规模筛选数据已全部对外开放,供全球科研人员免费使用,旨在降低领域门槛,加速共同创新。
深度产学研融合:
团队本身即由清华大学智能产业研究院、生命学院、化学系交叉组成,并已与校内多个实验团队成功合作验证。项目获国家科技部、自然科学基金、新基石研究基金等重磅支持。
共建研发联盟:
依托清华(AIR)-智源健康计算联合研究中心,联合北京智源人工智能研究院、清华大学无锡应用技术研究院等机构,形成“AI算法-生物验证-产业转化”的协同网络,聚焦抗癌、传染病、罕见病等急需领域,推动针对新靶点的首创新药研发。

迈向“AI原生”的药物研发新范式
DrugCLIP的成功预示了药物研发范式的深刻变革,未来演进路径清晰:
广度拓展:持续覆盖更多未知靶点与孤儿靶点,将“不可成药”靶点逐步转化为“可成药”。
深度结合:与生成式AI融合,从“筛选现有分子”向“设计理想分子”演进,实现“AI筛选”与“AI创造”闭环。
生态赋能:作为基础平台,将持续为生物医药行业提供普惠化的超高通量筛选能力,赋能大型药企、生物科技公司及学术机构,整体提升创新药研发的效率和成功率。
从“大海捞针”到“磁石吸铁”
清华DrugCLIP的突破,不仅在于其令人震撼的“十万亿次/天”的处理能力,更在于它系统地攻克了传统研发的效能瓶颈与视野局限,为后AlphaFold时代的药物研发提供了关键的工具和庞大的数据基石。
它标志着我们正从“试错式”研发,迈入一个 “全基因组系统性探索,AI智能精准导航” 的药物发现新纪元。这场由AI驱动的生命科技革命,正在为人类健康未来播种下无限的希望。



