本文来源于微信公众号“ 高瓴创投”,作者:HCare
「HCare」 Vol.12,我们来了解AI制药是如何通过算法、算力和数据降低药物成本,促进新药研发的 。
假设你有一仓库的开心果,你可以随意享用美味的开心果,只有一个条件:一次吃完之后,你都需要将开心果的壳丢回仓库。刚开始时,随手就能抓到一把开心果,但吃到后面,壳越来越多,开心果越来越少,要想找到开心果越来越困难,可能在不断的翻找后才能找到一颗。最后,你可能会放弃这个曾经装满开心果的仓库,开始在其它仓库寻觅开心果,但这并不意味着这个仓库里已经没有开心果了,它可能只是极难被找到了。
刚开始时,仓库里到处都是开心果,随手一抓就能够找到一颗
开心果仓库的故事曾经被用来形容地球中矿产资源的状况,地球中的矿产就是一个个的开心果,当一个坑矿被废弃之后,就变成了仓库里的开心果壳。最后,地球上的矿产可能并不会被人类开采殆尽,但是由于寻找矿产的成本与技术难度陡增,人类会放弃在地球上搜寻矿产,转而向外星球进发。
对于制药行业而言,尤其是抗菌和抗病毒药物领域,也面临着同样的“开心果难题”。
随着开心果的消耗和果壳的增多,开心果变得越来越难找
在过去,人们对于药物的要求并不高:只要能够缓解当下的症状就好。而现在,人们不仅要求药物能够缓解症状,还希望能够彻底治愈疾病,并且具有更高的安全性与更少的副作用,而且我们面对的疾病都是成因极其复杂的,例如癌症或阿兹海默症,以及耐药性更强的微生物导致的疾病。
药物分子的作用依赖其具有的结构。无论是生物分子靶向结合受体蛋白从而调控细胞机能,激素分子激活细胞信号通路,还是小分子药物催化生化反应,药物能够完成繁复的作用离不开分子复杂的结构。小到化学分子结构上的一个官能团,大到蛋白庞大的结构域,这些结构执行着不同的功能,随着不断被解析,制药的选择有了更加明确的方向。
在认识到结构对于药物功能的重要性之前,我们的前人往往是依靠尝试来确定药物的作用,比如神农尝百草和李时珍编写《本草纲目》,都历经艰辛且冒着极大的风险。而且这样的尝试的效率也无法满足现在的要求:在当时已知的数百种主要病症和上万种药用植物面前,寻找一一对应的关系似乎只是时间的问题,但是当我们面对不计其数的分子的时候,这样穷举的方法就显得力不从心了。
传统的新药发现就像我们要找到一个开心果,需要在仓库里的空壳堆里翻找一样,也许我们能够大致知道哪一片区域会有更多的开心果,但是翻找空壳这样一个费时费力的事情却是无法避免的。
我们有没有什么办法不去一个个的检查空壳,而直接定位到仓库里的开心果呢?
就像我们不想翻书的时候可以搜索一样,AI能够代替人完成许多工作,而且又好又快。在新药发现过程中,AI 可以代替人处理科研成果、临床数据、理化数据等,并从化学和生物的分子、活化能等层面计算筛选出最优的几个候选位点,将原本需要人工筛选的上万分子缩减至几个。
这样一来,我们就不用一个个检查空壳,而能够先定义没有被吃过的开心果的特征(例如两个以“V”字型结合的壳),让AI代替我们寻找开心果的位置。我们就朝着AI预测的方向翻找几下,就可以找到可口的开心果了。不仅如此,AI还能够通过数据对药物实验进行优化,药物警戒以及提供对受试人群筛选,从上到下对制药领域产生革命性的影响。
我们可以对开心果进行定义后训练AI,生成的算法指导计算机寻找开心果
定义开心果的特征,首先需要知道开心果是什么,相比于指甲盖大小,样子显而易见的开心果,蛋白的结构解析则是一件复杂的事情。
相比于核酸只有四种基本的核苷酸,由20种常见氨基酸所构成的蛋白质在组成的复杂性上就远远超过了核酸,光是50个氨基酸的蛋白可能就已经接近了34位数,如果考虑到非常见氨基酸的出现,蛋白从理论上说将会有几乎无限种可能性。
一开始,科学家是通过x射线衍射和核磁共振这样的方式去给蛋白质“拍照”来获得蛋白结构的。但是这样的“拍照”对于蛋白样品的纯度要求和器材要求非常高,而且并不能直接得到蛋白结构的结果,对结果的解析也是一件非常费时费力的事情。如果每一个蛋白都通过这样的“拍照”来获得结构,那么花费的时间和人力物力将和蛋白本身一样不计其数。
科学家在解析蛋白序列时有了惊讶的发现:某一类功能相近的蛋白质具有相似的蛋白序列。经过数十年的验证,我们发现蛋白的功能受到它所具有的序列的决定,在蛋白不断变化的过程中,有一些序列是很难改变的,这些序列被称之为“保守序列”。
就这样,我们可以通过比对已知和未知的蛋白质的序列,找出两者重叠的序列区域构建基本的蛋白框架,就可以用已知蛋白的序列结构片段出未知蛋白的结构。
人工智能将高效的寻找开心果,节约巨量的人力和时间成本
当科学家们以为通过简单的剪贴游戏就可以解析蛋白的结构时,突变和非保守区域的乌云又笼罩在了上空:作为肿瘤形成的关键蛋白ras蛋白,肿瘤病人只需要有一到三处突变就会获得与正常蛋白完全不同的蛋白特征,这意味着微小的突变也对蛋白功能也有至关重要的作用。而且,蛋白中的非保守序列和端链区域也对蛋白的功能有一定的影响。这些新的发现说明简单的计算无法满足对蛋白结构的解析的要求,复杂的蛋白对算法的可靠性提出了新的挑战。
蛋白并不只是简单的序列,由氨基酸组成的肽链会进一步相互作用生成极为复杂的高级结构,这些空间结构以及其携带的理化性质一定程度上决定了蛋白的功能
2020年,谷歌旗下deepmind团队宣布基于AI算法alphafold能够对人类蛋白质组58%的氨基酸结构给出可信预测,且能覆盖98.5%以上的蛋白。AI的出现终于解决了困扰生物学50年的蛋白质结构预测问题,为AI能够用于制药提供了最坚实的技术保障。
AI制药对于效率的提高是显而易见的。相较于传统医药长达数年的周期与数十亿美元的对于单一药物研发投入,AI药物研发能够极大的节省时间和经济成本:Insilico Medicine通过AI制药技术用更短的时间发现了新机制特发性肺纤维化药物。此外,以望石智慧为代表专注于AI制药算法的新兴团队也凭借着独特高效的算法,为其它制药企业提供一体化的AI服务,赋能生物制药。
传统跨国制药巨头很早就开始与人工智能展开了合作,默沙东在2012年就开始与Numerate针对心血管疾病药物展开了深度研究合作。在医疗服务领域,人工智能技术的嵌入也推动医疗服务的高速发展,例如离我们最近的健康追踪和遗传分析,背后都少不了AI算法的影子。这些AI数据不仅能够对我们的健康进行评估,还能够对常见健康问题进行统计与发掘,反向为AI制药提供建议。
凭借低投入、高产出的效率革命特性,以及alphafold带来的巨大突破,AI制药成为了近年来最受关注的领域之一。除了传统跨国医药巨头,擅长算法的互联网企业也纷纷进军AI制药领域:腾讯、华为、阿里巴巴、百度等知名企业在2020年前后成立AI药物研发大数据平台和AI制药团队,而以药明康德、恒瑞医药为代表的大型药企也开始下注AI制药领域。
然而,目前AI制药的发展依然面临着一些难题。其中最大的难题就是AI对信息开放的需求和医药对信息保密的需求之间的冲突。
制药过程中,研发所占据的成本是药物成本的大头,药物合成生产在一些研发难度较大的小分子药物面前甚至可以忽略不计,然而这些耗费几十亿美元的研发数据一旦泄漏,竞争对手可以通过仿制轻松节省巨额的研发成本,长此以往会极大的打击制药研发投入的积极性。在训练AI系统时,无论是否具有已有的数据特征以供参考,原始数据的数量直接决定了AI预测的精准性,只有海量的数据才能够训练出最精准的AI。
另外,人才匮乏也是AI制药所面临的另一个难题。相较于传统的计算机或生物学人才,AI制药需要更多跨界人才,他们不仅要精通算法的构建与优化,还要有坚实的分子生物学与结构生物学知识,能够理解制药中的生物学需要并将其转化为算法问题。
科技造福人类。高瓴希望通过支持AI制药,减少研发试错频率与成本,增加创新药研发效率,助力新型Biotech公司持续发现有价值的新药靶点及项目,为中国创新药企业赋能,为患者提供更多有效药物。
# 参考资料: 1. Highly accurate protein structure prediction for the human proteome, Nature (2021) , https://doi.org/10.1038/s41586-021-03828-1. 3. 2021新智元. 「中国AlphaFold」创生!他用AI 提速生物制药,获新一轮近亿美金融资 . 知乎. 4. 王礼钧. AI开始制药. 腾讯新闻. 5. 脑极体. 别再问我什么是AI制药. 36kr. 6. 生辉. AI 制药行业专题报告——打开 AI 制药黑匣子,CB Insights 深度剖析 AI 制药领域商业机会. 网易新闻. 7. 浅陌初心. 什么是AI制药、为什么要选择AI制药?溯源药物研发史. 贤集网.