第3讲 人工智能赋能科学发现
张宏江
美国国家工程院外籍院士、北京智源人工智能研究院理事长
科学是建立在物理观上的。物理学家、诺贝尔奖获得者费曼说:“从生物是由遵循物理定律的原子构成的这一观点来看,生物的行为没有一件是不能被理解的。”换言之,一旦了解了原则性的物理法则,我们就可以了解整个世界。同样,物理学家狄拉克在1929年总结道,有了物理的原理和对它们的数学描述,整个物理和化学就是完全可解的。但是,正如狄拉克自己曾经指出的一样,如果只是从底层的原理进行计算和模拟,那么我们很快就会遇到“维度灾难”。也就是说,在一些具体问题的求解中,随着计算位数的增加,计算的代价会呈指数增长,从而使我们无法得解。
在科研工作中,海量数据十分常见。处理它们时常常会发生“维度灾难”,这也严重地制约了人类科学的进步与发展。换言之,我们如今有了物理的原理公式作为打开科学大门的钥匙,但是我们没有力气把门打开。
这一讲将介绍人工智能如何在科研发现中赋能于科学家,使他们能够解决以前无法解决的问题。此外,还将呈现“AI赋能科学”(AI for science)的最新发展,并聚焦于AI对药物设计领域的赋能。
一、科学发现的新范式:AI驱动
AI能够如何帮助科学研究进入新的范式?为了回答这个问题,我们可以回顾一下3000多年来的科学发展史。如图3-1所示,图灵奖获得者吉姆·格雷(Jim Grey)在大约20年前总结了科学研究的四大范式:经验观察、理论模型、计算模拟、数据驱动。
图3-1 科学研究的范式
科学研究的第一大范式是经验观察。自几千年前人类初次探索科学以来,我们都是通过观察和实验来描述自然现象的。比如,日心说就是通过对天象的观察来描述整个宇宙的。科学研究的第二大范式是理论模型。15、16世纪左右,理论模型这一新的范式开始出现。牛顿三大定律和麦克斯韦方程是这一范式的代表。这一范式依据观察到的现象总结出理论,进而以理论指导新的科学研究。科学研究的第三大范式是计算模拟。这是五六十年前开始,尤其在大型计算机出现之后盛行的科学研究范式。随着科学的发展,我们遇见了更复杂的问题,比如天气预报、地震模拟。由于这类问题过于复杂,人们无法用简单的物理公式或方程构建完整的模拟系统,于是计算模拟的方式被引入科学研究。科学研究的第四大范式是数据驱动。大约20年前,我们进入了大数据时代。前三大科学研究范式积累下的大量数据驱动了物理模型的开发。深度学习的成功就是数据驱动的极佳例子。
以设计飞机为例,莱特兄弟通过反复地实验和纠错发明了飞机,这主要是对第一大科学研究范式的使用。然而,近几十年,飞机设计采取的主要是第三和第四大科学研究范式,即通过计算模拟和数据驱动进行设计。人们首先依赖于空气动力学的原理设计模型,然后将其投入风洞试验,最后依据风洞试验中收集的大量数据来改善模型和设计。
如今,我们进入了人工智能时代,也进入了相应的新科研范式——AI驱动(AI-powered)的科学研究范式。这一范式用深度学习的算法直接从已有的模型和数据中建立起新的模型——深度学习模型。它背后的核心是数据、模型、算法和算力。
AI可以帮助解决“维度灾难”问题。AI的所有算法都可以抽象为一个公式,还可以构建一个模型,从数据中学习规律并自我迭代,而由AI所有算法抽象出的公式本身是由经验观察、理论模型、计算模拟三大科学研究范式总结出的第一性原理(如牛顿三大定律、麦克斯韦方程)确定的。所以,AI驱动的科学研究能够将人类已知的信息和AI模型相结合,通过大量实验数据提取出有用的信息,利用强化学习进行自我迭代,并不断完善模型。它能够利用深度学习模型的高维学习能力,使原本高度复杂、高维度、海量数据的模拟问题得到有效解决。总之,AI驱动的科学发现能够根据第一性原理,结合数据模型,通过神经网络来进行学习,从而得出最终结果。
AI驱动科学研究的关键是神经网络的设计,即如何把以前的理论、模型和大量数据导入深度学习模型。比如,如果要在科研中利用AI生成模型来生成分子结构,那么核心问题就在于如何用图形神经网络来表征分子结构。
二、AI驱动的科学发现
人类在走过前四大科学研究范式的同时,计算的复杂度也在成倍地增长。今天,只用传统的模拟方式已经无法得出可信的结果,分子设计领域也遇到了同样的问题。无论是高分子材料、电磁材料还是小分子药物,我们都希望能使用最新的方式——神经网络学习——来得到我们最终需要的分子结构。
用深度学习模拟和设计物理过程及物理结构的方式已经得到广泛的应用。比如,DeepMind公司研发的用于预测蛋白质结构的AlphaFold系统预测出了所有蛋白质的结构。此外,还可以通过深度学习来观察液态氢的超导行为,观察结果可以用于控制超导行为,这在新能源方面有非常好的用途。总之,在材料科学、能源科学、电子工程、环境科学等领域,“AI赋能科学发现”已经有了突飞猛进的发展。
其中,发展最成熟的领域是药物研发。在传统的药物设计方式下,专家确定靶点后,从药物库中筛选并设计出候选药,然后进行临床试验。整个流程耗时长、代价大、创新难度高。然而,人工智能辅助的药物设计能够基于深度学习模型设计出蛋白质架构,从而跨过这些代价高昂的设计过程。也正是这些优势,使得药物研发领域比其他领域更加适合使用AI来辅助,发展速度更快,成熟度更高。
药物设计的核心是生物分子结构的设计。生物分子结构包括蛋白质、DNA、RNA等,它们可以使用一维、二维、三维、四维的方式进行表征。几何深度学习模型能够融合多模态、多尺度、多维度的数据,有效且准确地表征生物分子结构,也可以用于生成新的生物分子,助力研发人员进行定量评估,从而解决药物设计的核心问题。总之,一个有效、学习能力强的AI模型,加上分子设计的第一性原理,就能助力研发人员完成强分子的药物设计、药物分子优化、药物重新利用、抗体生成和蛋白质设计。这也是智源健康计算中心的核心工作。
我们非常重视模型,并且在大模型领域已经积累了多年的经验。无论是预训练模型、图网络模型还是通用模型,我们都拥有非常优秀的技术,并希望将这些模型成功应用于制药领域。基于此,我们已经开发了核酸适配生成、蛋白质生成和筛选等模型。这些模型的优势在于,通过机器学习,我们能够取代许多烦琐的湿实验步骤,从而实现干湿实验的闭环。实验数据能够快速反馈到AI模型中,而且我们能够用计算替代大量的实验,这极大地提高了新药研发的效率。这一系列研究成果都将开源。我们还在上述成果的基础上推出了通用计算平台。
我们希望与国内乃至全球的同行合作。比如,我们与清华大学的智能产业研究院联合,在妊娠糖尿病的数字疗法研究和基于转录测序数据的个性化药物重新定位方面取得了显著的成绩。同时,需要强调的是,我们在“AI驱动的科学发现”方面强调科学人员与AI的结合。我们与海德堡大学的化学生物实验室合作,将他们的实验数据快速反馈到机器学习中,从而设计出新的药物。这种方式将精度和效率都提高了100倍,并显著缩短了药物设计周期。
AI制药领域在“AI驱动的科学发现”方面进展迅速。在过去5年中,我们已经看到越来越多的创业公司涌现,甚至有药物进入临床试验阶段,这为我们提供了一个非常好的创业机会。2022~2023年可能是一个发展的拐点。
三、总结
在推动了自然语言处理、图像处理和视觉识别等一系列应用后,深度学习将在科学研究领域产生革命性的影响。深度学习能够将物理世界数字化和自动化,形成科学研究的“第五大范式”——AI驱动的科学研究范式。
目前,深度学习处于发展的黄金期,材料、化学和生物学等多个科学领域都可以得到深度学习的赋能。随着机器学习算法、量子计算和计算科学的进步,深度学习还将为能源、气候、健康等领域的应用创造巨大的发展机会。未来十年,科学发展和产业创新将出现巨大机遇,重点包括数据、模型、算力、算法,核心在于跨学科人才的支持。