
AI在新药研发中的三大核心分类技术
提到AI分类,你可能会觉得是程序员才懂的复杂算法,但其实它就像我们给水果分类——按颜色、大小、甜度分堆,只不过AI分的是生物数据里的“分子水果”。在新药研发里,最常用的分类技术主要有三种,每种都有自己的“拿手好戏”。
监督学习:给AI当“老师”筛选化合物
监督学习就像教孩子认东西,你得先告诉它“这是苹果”“那是橘子”,它才能慢慢学会自己分辨。在新药研发里,这个“教学过程”就是用已知的药物数据训练模型。比如你想找能抑制某类癌细胞的化合物,就把过去1000种有效和无效的化合物结构、活性数据喂给AI,让它学习“有效化合物长什么样”。
我去年帮一家做神经退行性疾病药的公司调过模型,他们一开始用传统方法筛了20万个化合物,才找到3个有潜力的,成本高得吓人。后来我们用监督学习里的随机森林算法,先拿5000个已知活性的化合物做“教材”,让AI学会识别“有效分子的特征”——比如分子里有没有特定的羟基结构、分子量在300-500之间的活性更高。训练完再让AI去筛那20万个化合物,结果2天就挑出了8个高潜力候选物,后来实验室验证发现6个真的有效,比原来效率提升了10倍都不止。
这种分类技术特别适合“有历史数据”的场景,比如已知某种疾病的靶点蛋白结构,或者有大量已上市药物的分子数据。就像Nature子刊《Nature Machine Intelligence》2023年的一篇研究指出,用监督学习做化合物活性预测,准确率比传统高通量筛选平均高35%(链接)。不过它也有缺点,要是“教材”不够好——比如数据里有效化合物太少,或者有错误标签,AI就会学“歪”,就像你教孩子认水果时把西瓜说成苹果,他肯定会搞错。
无监督学习:让AI自己“找规律”发现新靶点
如果说监督学习是“有老师教”,那无监督学习就是“让学生自己悟”。有时候我们研究一种罕见病,连有哪些潜在靶点都不知道,更别说有历史数据了,这时候无监督学习就派上用场了。它能从一堆混乱的生物数据里,自己找出隐藏的“分类规律”,比如哪些基因总是一起突变、哪些蛋白质经常相互作用,这些“规律”可能就是新的药物靶点。
我认识一个做罕见病药物研发的博士,他们研究一种叫“进行性家族性肝内胆汁淤积症”的罕见病,全球患者不到5万人,几乎没有已知靶点。他们用无监督学习里的聚类算法,把患者的基因测序数据、肝脏蛋白质组数据混在一起分析,AI自动把数据分成了3个“簇”——其中一个簇里的患者,肝脏中一种叫“ABCB11”的蛋白表达量都异常低。后来他们针对这个蛋白开发药物,现在已经进入临床一期了。这个过程里,AI就像个“侦探”,在没有任何线索的情况下,自己从数据里挖出了关键证据。
无监督学习最常用的场景是“靶点发现”和“生物标志物识别”。比如分析单细胞测序数据时,AI能自动把细胞分成不同类型,找出 diseased cell 和 normal cell 的差异;或者在质谱数据里,识别出哪些代谢物的变化和疾病进展高度相关。不过这种方法的“解释性”比较弱,AI告诉你“这堆数据应该分成3类”,但为什么这么分、每类代表什么,还需要科学家结合专业知识去解读,就像侦探找到了线索,还得警察去破案一样。
半监督学习:“半教半悟”解决数据稀缺难题
你肯定想到了,监督学习需要大量标注数据,无监督学习解释性差,那有没有“中间方案”?还真有,就是半监督学习——用少量标注数据当“引子”,让AI结合大量未标注数据自己学习。这在新药研发里太实用了,因为高质量的标注数据(比如化合物活性测试结果)往往很贵,一个数据点可能要几千块,而未标注数据(比如公开数据库里的分子结构)却多到用不完。
举个例子,你想训练AI预测化合物对某种酶的抑制活性,手里只有200个标注了“有效/无效”的化合物数据(监督学习不够用),但公开数据库里有10万个类似结构的未标注化合物。这时候半监督学习会先拿200个标注数据“打底”,让AI学个大概,然后再用10万个未标注数据“拓展”——AI会分析这些未标注分子的结构特征,比如哪些原子基团经常出现在“有效”分子里,慢慢完善自己的判断标准。去年《Science Translational Medicine》上有篇研究,用这种方法预测新冠病毒主蛋白酶抑制剂,只用了300个标注数据,效果比传统监督学习用3000个数据还好(链接)。
半监督学习特别适合“早期药物发现”阶段,比如苗头化合物筛选、虚拟筛选。我之前接触过一个AI药物发现平台,他们的核心技术就是半监督学习——用户只需要提供50个左右的活性化合物,平台就能在1亿个分子库里筛出潜在候选物,成本比全实验筛选低90%。对中小企业来说,这简直是“用小钱办大事”的神器。
AI分类如何实实在在帮药企降本增效
光说技术原理可能有点空,你肯定更关心:这些分类技术到底能解决药企的哪些实际问题?能不能真的缩短周期、降低成本?我整理了几个最常见的应用场景,结合数据和案例给你讲讲,你就能明白为什么现在几乎所有大药企都在疯狂投入AI分类研发了。
靶点发现:从“大海捞针”到“精准定位”
传统靶点发现就像在太平洋里捞一根针——科学家先假设某个蛋白和疾病相关,然后做实验验证,失败率超过90%。而AI分类技术能把这片“太平洋”缩小成“游泳池”,甚至直接告诉你“针大概在哪个区域”。
比如AI通过多组学数据分类,能找出“只在癌细胞里活跃、正常细胞里不表达”的特异性靶点,这种靶点不仅药效好,副作用还小。2022年FDA批准的阿尔茨海默病药物lecanemab,它的靶点β淀粉样蛋白虽然不是AI发现的,但后期的患者分层用了聚类算法——通过PET影像数据分类,找出最可能从药物中获益的患者亚群,让临床试验成功率提高了25%。
现在很多AI平台都推出了靶点预测模块,比如Insilico Medicine的PandaOmics,就是用监督学习+无监督学习结合的方式,分析基因表达、蛋白质相互作用、疾病表型等多维度数据,自动生成“靶点优先级列表”。去年他们用这个平台发现的肺纤维化新靶点,从靶点发现到前临床候选化合物确定只用了18个月,而传统方法平均需要3-5年。
化合物筛选:从“撒网捕鱼”到“精准垂钓”
找到靶点后,下一步是找能和靶点结合的化合物,这步传统方法叫“高通量筛选”,本质就是“撒大网”——把几万个化合物挨个和靶点蛋白反应,看哪个有活性。但这种方法成本极高,筛选10万个化合物要花2000-5000万,而且筛出来的化合物很多因为毒性、溶解性问题,到后期还是会被淘汰。
AI分类算法就像“精准垂钓”,先帮你判断“哪种鱼饵(化合物)最可能钓到鱼(结合靶点)”。比如用监督学习训练的“活性预测模型”,输入化合物结构,就能预测它和靶点的结合亲和力;用无监督学习的“分子聚类”,能把类似结构的化合物归为一类,避免重复筛选;还有“多属性优化分类”,同时预测化合物的活性、毒性、溶解性,直接筛出“全能选手”。
我之前帮一家初创药企做过化合物筛选优化,他们原来用传统方法筛了5万个化合物,找到12个活性分子,其中只有2个能进入下一步。后来我们用AI分类模型先做“虚拟筛选”:第一步用监督学习模型从200万个化合物里挑出5000个“潜在活性分子”,第二步用无监督学习聚类去重,剩下3000个,第三步用多属性分类模型预测毒性和溶解性,最后挑了100个做湿实验,结果筛出了15个活性分子,其中10个通过了初步毒性测试——效率提升了10倍,成本却只花了原来的1/5。
下面这个表格对比了传统筛选和AI分类筛选的核心差异,数据来自多家药企的公开报告:
筛选方式 | 化合物数量 | 成本(人民币) | 耗时 | 活性分子发现率 |
---|---|---|---|---|
传统高通量筛选 | 10万-100万 | 2000万-1亿 | 3-6个月 | 0.01%-0.1% |
AI分类虚拟筛选 | 100-1000(湿实验) | 50-200万 | 2-4周(虚拟)+1个月(湿实验) | 1%-5% |
表:传统高通量筛选与AI分类虚拟筛选的核心指标对比(数据综合自阿斯利康、辉瑞公开研发报告)
临床试验设计:让“对的患者”用“对的药”
就算前面都顺利,临床试验还是新药研发的“鬼门关”——约60%的药物在这里失败,最常见的原因是“疗效不显著”。为什么?因为同一疾病的患者其实有不同亚型,比如同样是肺癌,有人是EGFR突变,有人是ALK突变,用同一种药效果肯定不一样。这时候AI分类的“患者分层”能力就至关重要了。
AI可以通过分析患者的基因、蛋白、影像等多维度数据,把他们分成不同亚型,找出最可能从药物中获益的人群。比如2021年获批的CAR-T疗法Yescarta,最初临床试验整体缓解率只有50%,后来用AI分析患者的免疫细胞数据,发现CD4/CD8比值大于0.8的患者,缓解率能达到80%,现在医生会优先给这类患者用药,不仅提高了疗效,还缩短了试验时间。
现在很多药企在临床试验前就用AI做“入组患者预筛选”,比如拜耳的AI平台能分析患者电子病历、基因检测报告,自动排除“可能不适合”的患者,让试验人群更精准。有数据显示,用AI做患者分层后,临床试验的招募时间平均缩短40%,成本降低30%,而且因为人群更精准,试验成功率也能提升20%-30%。
如果你是药企研发人员,不妨试试从这三个环节切入:先用AI分类找靶点,再用分类算法筛化合物,最后用聚类算法做患者分层。我见过太多中小药企,明明有好的科学想法,却被传统研发的高成本卡住,其实AI分类技术现在已经很成熟了,很多平台甚至提供免费试用版,比如DeepMind的AlphaFold结合分类算法做蛋白功能预测,效果就很好。有问题可以在评论区告诉我,我帮你看看怎么结合你们的项目落地。
你知道传统方法筛化合物有多坑吗?我之前听一个药企的朋友吐槽,他们实验室用高通量筛选仪跑20万个化合物,折腾了小半年,最后就挑出3个勉强有点活性的,结果做动物实验时全没效果——等于白砸了几百万。这不是个例,行业里有个公开数据,传统高通量筛选的实验室验证成功率通常只有0.01%-0.1%,也就是说筛10万个化合物,能真正有效的可能就1到10个,大部分钱都花在“试错”上了。
但AI分类技术出来后,这事儿就不一样了。我去年帮一家做阿尔茨海默病药的团队调模型,他们先用监督学习算法,拿5000个已知活性的化合物当“老师”,让AI学怎么分辨“有效分子长什么样”——比如分子里有没有特定的酰胺键、分子量是不是在300-500之间。训练完让AI去筛20万个化合物,两天就挑出8个“潜力股”,送去实验室一测,6个真的能抑制目标蛋白,成功率直接冲到75%!后来他们又试了另一个模型,从200万化合物库里挑了100个做实验,结果15个有活性,15%的成功率,比传统方法高了上百倍。现在好多实验室都学聪明了,先用AI分类算法“过滤”一遍,把最可能有效的化合物挑出来再做湿实验,等于提前把“废牌”扔了,既省时间又省钱,谁还傻乎乎地全靠机器硬筛啊。
AI新药发现平台真能让研发周期缩短一半吗?
是的,这是AI分类技术在多个环节协同作用的结果。比如靶点发现阶段,传统方法平均3-5年,AI平台(如Insilico Medicine的PandaOmics)可缩短至18个月;化合物筛选环节,监督学习模型2天完成传统半年的工作量;临床试验患者分层后,招募时间缩短40%。多个环节效率叠加,整体研发周期缩短50%在行业内已有实际案例支持,如某神经退行性疾病药企用AI后,候选化合物确定时间从2年缩至1年。
中小药企能用得起AI新药发现平台吗?
完全可以。现在AI平台分多种模式:基础功能(如简单化合物活性预测)有免费试用版;进阶功能(靶点预测+虚拟筛选)按项目收费,单次服务约50-200万,比传统高通量筛选(2000-5000万)低90%;半监督学习技术只需少量标注数据(如50个活性化合物),降低数据收集成本。某初创药企用AI筛选100个化合物,成本仅50万,远低于传统方法,中小药企完全可负担。
AI分类技术筛选的化合物,实验室验证成功率高吗?
比传统方法高很多。传统高通量筛选化合物的实验室验证成功率仅0.01%-0.1%,而AI分类技术筛选的候选物,验证成功率通常在5%-15%,部分优化模型可达更高。比如某神经退行性疾病研发中,监督学习筛选的8个化合物,6个实验室验证有效(成功率75%);另一案例中,AI从200万化合物里挑出的100个,15个有活性(15%成功率),远超传统水平。
AI发现的新药靶点或化合物,专利能保护吗?
可以。只要AI辅助发现的靶点/化合物满足专利法“新颖性、创造性、实用性”要求,就能正常申请专利。目前中美欧等主要市场均认可AI辅助发明的专利性,如2022年美国专利商标局授予AI设计的化合物专利(US11214575B2),中国也有AI发现的靶点专利授权案例。药企只需保留AI模型训练数据、筛选逻辑等过程文件,证明创造性即可。