从“制药”到“智药” AI如何在生命科学界激起创新
如果一个人的职业生涯也遵循某种规律,那么对于邓亚峰而言,他的职业上半场一直在追求AI技术生长曲线“从0到1”的突破,而下半场则是摸索AI商业需求曲线的“最后一公里”。
细细算来,邓亚峰已经在AI领域披荆斩棘20多年,在这不算短的岁月里,他曾协助逆境中的AI创业公司成功转型,最终度过一段危机;也曾在互联网巨头管理数百人团队,维护传统业务的同时,不断开拓AI创新业务。
他同样擅长的,或许还有带领团队在众多世界级AI竞赛或评测中,屡次拿到一流成绩。目前,邓亚峰累计申请发明专利140余项(已授权近百项),发表论文40+篇,曾获得“2021年中国人工智能年度十大风云人物”。如果用一句话总结,即不断在AI技术战场勇攀高峰。
如果故事只是听到这里,或许有人以为可以线性预测他接下来的职业走向,但那就很可能猜错了结果。
因为,他的人生剧本并不打算按常理出牌。
2022那一年,邓亚峰放弃在计算机视觉、自然语言等传统AI领域的多年积累,毅然选择踏进生命科学领域从零开始,合伙创立了一家聚焦AI+新药研发的科技公司——碳硅智慧。
碳硅智慧所在的生命科学或医药领域,是极为厚重的领域,这对于任何入局者而言,都是堪比翻越大山般的考验。以医药研发行业公认的数据来看,创新药从开始研发到上市最少需要10年,耗资最少10亿美元,被称之为“双十定律”。
邓亚峰为何知难而上?
答案,就不得不从他创业之前开始说起。
时代与机遇,选择与坚持
回顾邓亚峰创业之前的几段职业经历,看似每一次都在做不同的选择,但其实更多是一个关于坚持的故事。
2002年,邓亚峰考入清华电子工程系读研,凭兴趣选择了计算机视觉专业,殊不知恰巧踩中了AI这一未来方向。但“技术成熟度曲线”既然是曲线,就意味着波动性,AI自然也不例外。
当时的AI发展尚在早期,也因此,毕业后的邓亚峰,也只是在工业界的小团队里做做计算机视觉有关的应用,他说自己虽然快乐,却久久看不到AI大规模落地的希望。
就这样,时间过去了十年,AI命运的齿轮开始转动。
2012年,神经网络之父Hinton和他的学生Alex Krizhevsky和Ilya Sutskever(就是现在的OpenAI首席科学家)主导的AlexNet深度卷积神经网络在ImageNet分类比赛中拔得头筹,这一事件彻底轰动学术界。不过“技术”到“应用”的鸿沟堪比天险,技术已经蓄势待发,但市场还没准备好,所以产业界并未因此激起太大涟漪。
但邓亚峰经过调研后认为,深度学习作为机器学习领域新的方法,潜力巨大。于是他在2013年毅然选择加入百度IDL(百度深度学习研究院,现百度研究院的前身),成为一个技术方向的负责人。彼时正值百度IDL刚成立,执行院长是余凯(现任地平线的创始人),此人正是推动国内深度学习发展的关键人物之一。
从那一年起,伴随着算力的持续提升和海量训练样本的支撑,深度学习成为研究热点,发展可谓是突飞猛进,持续有突破性成果产生。此后三年的时间里,邓亚峰与团队一起屡创成绩,多次在人脸检测的主流评测中获得第一的成绩,并将当时号称“学术界人脸识别世界杯”——LFW的评测准确率推进到极限的99.77%,达到世界第一,还参与提出了DenseBox——是行业里第一个基于FCN(全卷积神经网络)的一阶段物体检测器。
从2016年离开百度之后,在接下来的五年多的时间里,邓亚峰先后在两家头部公司任职,也正是这两段经历,让他实现了完整蜕变。
前三年,他先是作为一家AI创业公司的CTO,带领仅有头部公司1/10人数的算法团队,从零开始,仅用两年时间,就在号称“工业界人脸识别世界杯”——美国标准化局(NIST)举办的FRVT竞赛中,首次参赛拿到四项任务综合得分世界第一的成绩。当时的他,一方面设计团队架构,提拔培养核心骨干,另一方面,从数据、异构计算引擎、算法多角度打造深度学习引擎,并落地到人脸识别、车辆结构化、行人重识别等任务中。
后两年,他又作为一家巨头公司的副总裁,管理着约400人团队,带领业务团队将某个“国民级产品”的用户指标提升20%之多,这对于一个当时已经有数亿用户的成熟产品来讲,是个显著增量。更不用说,期间他在技术研发这个主战场,带领团队所向披靡,比如所研发的R2D2模型,在图文跨模态表征领域的表现,超过行业里最主流的CLIP模型;此外,在世界级知识图谱权威竞赛“OGB-WIKI”上,他带领的团队独霸OGB-wikiking2榜单两个席位——冠军和季军,而当时Meta团队以及图灵奖团队都败给了这支“中国队”。
几番征战,邓亚峰所接触的技术,从原来的计算机视觉,拓展到了自然语言理解、多模态大模型、知识图谱、机器人、智能搜索等多个领域,逐渐摸清AI技术的底层逻辑,也在AI产业界积累了经验。而邓亚峰本人的角色,也已经由最初的一名技术专家,蜕变为一位技术管理者,并延伸到一位创新业务掌舵者,他的羽翼逐渐丰满,开始渴望更高挑战。
他逐渐意识到,即便刷下一个又一个高含金量的技术榜单,并不能直接带来一个又一个产业应用的广泛普及,于是,一个念头在他内心萌生出来——创业!探索让技术真正落地之法。
“人的成就感和价值感来源于多方面”,他说,小时候经常拿第一名第二名,就是莫大的成就感。而在产业界打拼多年后的结论是,成就感要么就像“爱因斯坦”一样的科学家,带领人类探索未知往塔尖上走;要么就像“马斯克”一样的创新企业家,让硬核技术落地到产业界造福人类社会。
“我更倾向于做一个高科技行业的企业家。”他告诉科技行者。
生命科学或迎来大变局
2022年,承载邓亚峰愿景的碳硅智慧宣告成立。
公司命名的寓意也很明显,“碳”是构成生命体的基本元素,代表着化学、生物、药学等生命科学技术;“硅”是构成计算机系统的基础元素,代表着人工智能、物理计算等新一代信息科学技术——碳硅智慧希望将生命科学技术与新一代信息科学技术深度融合,将新药研发的各个环节数字化和智能化,解决新药研发难题。
前文我们已经提及,生命科学或新药研发领域,是一个高门槛、高投入、又封闭的市场,而邓亚峰的躬身入局,背后有三个理由:
站在时代角度是迫在眉睫。
首先是景气周期。AI发展至今半个多世纪以来,虽然一直起起落落,但也并非毫无规律可言。无论是2012年底爆发的AlexNet深度学习技术“让技术崭露头角”,还是2022年底问世的ChatGPT“掀起大模型热潮”,AI发展似乎遵循了“每10年为一个迭代周期”的历程。按照此逻辑,邓亚峰认为时机正好。
其次是案例示范。2021年,DeepMind公司与欧洲生物信息研究所合作开发的AI系统AlphaFold2一战成名,成功入选《自然》和《科学》各自评选的“年度十大科学突破”之首,其能预测出超过100万个物种的2.14亿个蛋白质结构,几乎涵盖了地球上所有已知蛋白质,在制药界引起巨大轰动。邓亚峰更加笃定,AI的技术红利,已经来到生命科学领域。
站在地利角度是只欠东风。
在前期筹备创业时,邓亚峰做了大量调研,他认为中国未来有三大方向——移动互联网、新能源和汽车、生命健康。其中在生命健康领域,中国已经进入人口下行通道,2023年出生人口比死亡人口减少约300万。由此他判断,“未来医药产业一定存在极大需求”。
再反观市场现状,中国传统的制药模式,与国外相比差距悬殊,新的政策导向下,“Me-too药”和“仿制药”发展受限,药企和生物制药公司有更强的诉求去做差异化和创新药物研发。邓亚峰直言:
“如同电动化、智能化催生了百年汽车产业巨变,现在恰逢新一代AI技术拐点,当医药产业的商业价值足够大时,未来中国有机会在AI制药领域与国际站在同一起跑线上,有机会实现弯道超车。”
站在个人角度是性格使然。
生命科学是一个惠及生命、具有很高社会价值且让人非常有使命感的领域,足够承载多家伟大的企业。“目前还有很多疾病无药可治,如果真的提高了药物研发效率,尤其是如果能为罕见病研发出药物造福人类,那真是值得骄傲一辈子的事情。”邓亚峰强调。
但与其他AI落地的领域一样,或者说比绝大多数行业来说,药物研发都是一个更加复杂的领域,涉及药学、物理、化学、生物、医学等跨学科领域,而邓亚峰开疆辟土同时要做两件事情:一个是快速入行学习,另一个就是壮大队伍。
因此,当时的邓亚峰,一边花大量时间攻读每个学科的背景知识,一边与相关学者、合作伙伴、客户进行大量交流,但更重要的,他快速组成了一个合理的初创团队。
“在碳硅智慧,有AI的专家,有药学的专家,还有物理计算的专家,而且每个人都很资深。”邓亚峰介绍说,“从2022年6月到2023年底,仅用了一年半,我们就发表了28篇顶级论文,其中有5篇发表在《自然》子刊,这证明了团队具有非常强的原创能力。”
“虽然我们起步晚,但我们做得很好,一方面因为我们团队的综合能力非常强,对技术理解非常深,另外一方面则得益于我们刚好赶上了对的时间。2022年之后,蛋白质结构预测,以及生成式AI和预训练大模型技术在生命科学领域密集落地,这些技术都被我们应用在自研的模型中。”
AI制药的过去、现在和未来
本质上,药物设计本身是一个多因素、多目标的设计,有诸多考虑因素:比如要有活性(有药效、能治病)、要有成药性(能被人体吸收、被代谢且没有副作用),还得避开他人的专利……种种因素决定了,它是一个非常复杂的兼具决策、预测、迭代的过程。
回溯历史,碳硅智慧所在的药物研发领域,之前走过了两个阶段:
第一阶段是早期的“神农尝百草”,把天然的药材提纯之后,又对它进行改进,把它生产成本降下来,从而实现药物普及。
第二阶段是理性设计阶段,通过“专家+实验驱动”的模式,专家依据知识和经验进行药物设计,再进一步做实验验证,逐步迭代。
这两个阶段,药物发现的效率,并不是很理想,一直存在研发周期长、成功率低且成本巨大的问题。这种现象,如果用硅圈(计算机领域)的术语来描述,刚好符合“反摩尔定律”;而碳圈(医药领域)的行话则是,“差不过每九年,一款药物的研发成本会翻倍。”
此情此景之下,邓亚峰认为如果将“硅”与“碳”更好结合,则可以改变现状,从而达到第三阶段:
即“AI建模+自动化实验+专家驱动”的模式,通过AI计算、挖掘、预测,结合专家知识和经验,再通过自动化实验,提高药物研发的确定性,提高成功率,降低成本,并让制药的迭代速度更快。
邓亚峰认为,药物研发第三阶段的到来,本质上得益于AI自身的特点,和近年来指数发展的速度。
一方面,AI可以突破人类的思维定势,创造更多“合理的差异化”。人类固然有经验,但也存在思维定式,容易受到条条框框限制,而AI敢于打破常规思维,所以生成的内容更天马行空。
碳硅团队曾在一个实验中发现,专家花几天时间只能设计出几十个分子,且经过数据分析后发现,这些分子结构一致性很高,只有几个独特的结构;而AI则可以快速生成大量结构新颖的分子,且多样性非常好,在一些实验中,仅合成几个AI生成的分子就可以得到结构新颖且活性有显著优势和差异化的分子,这会非常有助于中国团队突破me too/me better的模式。
另一方面,AI可以同时考虑多种因素,尽可能追求“全局最优”,减少尝试的次数。传统药物研发过程中,往往要合成数百个甚至数千个分子,才能找到一个合格的PCC分子,而AI的引入,有望通过和专家的交互,将这个数量降低到几十个左右,这无疑会大大提高迭代速度并降低成本。
当上述两点达到极致时,结合自动化实验,传统药物研发的范式,将有望被打破。未来也许有一天,专家通过与AI助手的交互,快速设计出少量分子,通过半自动化合成和实验验证后,将实验结果反馈给AI平台,待进一步优化后,再次进行合成和实验,直到分子达到预定设计目标。这个过程中,除了生物体内实验外的其他环节,都有望被数字化自动化操作。
“在这个时代,并不是说AI要淘汰专家,而是说用好AI的专家,比用不好AI的专家效率更高,我们相信这一天一定会到来。”邓亚峰总结说道。
技术要融合,商业模式也融合
纵观当前的AI制药企业,商业模式上主要有三类:AI-Biotech(利用AI自己建立新药研发管线,如英矽智能),AI-CRO(提供药物发现服务,如晶泰科技、腾迈医药、药明康德),AI-SaaS(售卖AI药研平台与软件的服务商,如薛定谔)。
具体到碳硅智慧这家公司,邓亚峰认为更倾向于提供上述第二+第三类商业模式,从产品和服务的角度主要分为三步走:
首先,碳硅智慧具有核心原创技术的一站式AI驱动新药发现平台DrugFlow,将以产品方式为专家使用,或者被客户集成成为客户研发平台的一部分供专家使用,成为行业AIDD基础设施平台。
该平台几乎覆盖了药物早期发现的所有环节,包括靶标发现、活性预测、成药性预测、分子生成、AI建模、物理计算、数据自动提取等模块,可帮助药化专家更高效便捷地找到潜在成药分子,并且通过专家持续使用,实验数据反馈、专家反馈和计算反馈迭代,持续提升算法的精度。
其中,基于AI的对接方法KarmaDock相对传统方法,精度相当的情况下,相对传统方法速度提升千倍;基于AI的对接方法CarsiDock,是当前最准确的对接方法,第一次将对接精度提升到90%以上。
更值得一提的是在分子生成优化方面,碳硅智慧研发了多种算法,其中FragGPT方法,通过将小分子结构表征为一维序列,并利用数亿分子训练GPT模型,在GPT模型加持下,可以做到同时支持「全新、RGroup、Linker、侧链、骨架跃迁」5种生成模式——“这5种生成模式,覆盖了药物设计的所有方法,过往一个AI算法仅仅只能支持其中一种或两种,而碳硅智慧的FragGPT是行业里第一个同时支持全部5种生成模式的方法,给了专家最大的自由度。”
其次,基于GPT模型打造新药研发领域的Copilot,提供包括文献自动获取、结构化信息自动提取、基于检索增强生成的GPT问答、专家知识库构建和可视化,再结合模型构建、模型部署、预训练模型、开放数据、数据采集工具以及多组学数据分析工具在内的各种组件,为客户提供开源开放、开箱即用的AI Copilot,赋能合作伙伴研发自主可控的新药研发信息化解决方案,提升领域应用AI的效率。
第三,相对传统CRO模式以FTE为主的商业模式,碳硅智慧希望基于最先进的AI计算技术和完整解决方案,与战略合作伙伴一起针对重点管线进行合作研发,按照结果来为合作伙伴交付分子,提供包括新靶点发现、成药分子发现及优化等服务。
沿着这一发展思路,邓亚峰对这个领域未来也做出预判,认为AI的药物研发未来将会呈现三个局面:
首先在未来1—3年的时间里,无论是药企还是BioTech,都会积极拥抱AI技术,逐渐使用AI;
其次在未来5年左右,真正AI设计的第一批药物将被推上市场,并显著加快药物研发速度,提高成功率;
最后,作为一种结果,未来药企真正有竞争力的团队,一定是用 “AI建模+自动化实验+专家驱动”的方式在研发药物,拥抱AI太晚的团队,如同汽车领域被淘汰的传统车企一样,将面临被淘汰的风险。
向内完善管理,向外完善生态
谈及创业历程,对于创业者来说,最核心的三件事往往是“找人找钱找方向”,这三件事更直白概括而言,是人才发展、商业变现、PMF的良性循环。
而任何一项技术发展曲线都是波动性的,过程中有曙光也有低潮,碳硅智慧如何潜移默化地影响整个产业?
邓亚峰坦言,科学家非常擅长攀登学术上的高峰,但现实的残酷在于,技术的领先有时不直接带来商业的回报,“有时候哪怕你把技术指标做到世界第一,也不一定有人愿意来用。”
一个行之有效的办法是:自己先用。软件行业有句俗语叫“吃自己的狗食”,战场有句俗语叫做“让听见炮火的人指挥战斗”,意思是自己研发的产品必须自己能用,从中发现问题和需求。
碳硅智慧内部专门设立了一个小团队,团队不大但一应俱全,有计算专家、生物专家、药化专家,真正还原一个真实的新药研发管线,该团队提出的需求,会直接反馈到内部的AI和软件团队,最后针对需求去开发,极大简化了研发流程。当最终案例呈现给专家或外部客户时,他们也会眼见为实,由此影响整个市场。
在这一过程中,对于创始人的管理也同样是个考验,如何去管理跨学科、跨部门、跨领域的人才?邓亚峰现身说法,分享了两个心得:
其一,要让大家协同共进,就是要追求所谓的“超级对齐”。从战略、到产品,一定要让大家有共同目标,目标就是匹配市场需求。
比如在碳硅智慧团队中,算法部门的人和药物研究部门的人,出发点肯定有区别,但如果反向推理,为了把某一个分子做出来,就要让做计算的人服务于做药物研究的人,让做AI模型的人服务于做计算的人,环环相扣。
其二,尽可能平衡技术研发和商业市场,这就对应到“内部需求”和“外部需求”。
在内部需求上,并非一味追求“前无古人的”技术新颖度,而是要在关键时刻学会断舍离。比如内部需求是做更多的模型以实现分子生成,但最后并非每个模型都有用,这时候就要取舍,舍掉对用户没有价值的模型进行重新改造。
在外部需求上,重视产业链生态伙伴的力量。2022年4月,碳硅智慧加入NVIDIA初创加速计划 (NVIDIA Inception),期间得到了技术支持,市场宣传、业务推荐等一系列助力,比如通过NVIDIA GPU实现模型算法的优化。一年后,碳硅智慧参与2023 NVIDIA 初创企业展示(NVIDIA INCEPTION SHOWCASE)活动,最终从250家企业中脱颖而出,入选成为10家“荣耀企业”称号中的一员。
荣誉的背后,是双方技术合作的价值。碳硅智慧的整个系统非常庞大,有包含100余个AI模型,而通过NVIDIA CUDA和系统优化,使绝大多数模型运行在GPU上,让系统的GPU使用率超过大多数。
此外,由于制药领域的关键痛点之一就是耗时,而碳硅智慧部分模块经由NVIDIA技术优化后,比起传统模式可谓效率惊人。邓亚峰对科技行者回忆了其中一个细节,记得碳硅智慧此前发表在《自然》子刊上的一个工作,通过算法改进和NVIDIA GPU优化,把对接的速度提高了近千倍。
“NVIDIA 给了我们AI创业者一个展示舞台,而且他们在生态上是比较不功利的;我与NVIDIA的合作关系,其实早在创业之前就建立了,跟他们公司各部门都挺熟。所以整体上我们与NVIDIA的合作挺愉快的。”邓亚峰表示。
至此,如果算上创业至今的两年时间,邓亚峰已经在AI领域走过22年,尽管所处的赛道和身份一直在变,但不变的是他对于AI的坚持。当被问及坚持不懈的原因,他淡淡地说:
“选择是存在一定偶然性的,但最终使你坚持下来的,必然是因为强烈的兴趣使然。”
“剩下的,就交给时间。”
(文章来源:科技行者techwalker.com)