
生物研究的范式转换:让计算生物学成为可能
“那些认为‘科学等价于测量’的人,应该去达尔文的著作里找找数字和等式。”[23]
——戴维·休伯尔,《自传中的神经科学历史》
“实验是科学对自然的提问,而测量是记录自然的回答。”
——马克斯·普朗克,《科学自传与其他论文》
毫不夸张地说,生物学和物理学都曾长期与理论和数学格格不入。尽管前述两个领域都高度依赖于实验数据和观察,但生物现象的复杂性使得那些描述基本原理的方程式毫无用武之地。自伽利略和科学革命以来,物理学成功建立起了一套预测框架,帮助人们精确而定量地理解自然法则:麦克斯韦方程组、爱因斯坦的E=mc2、牛顿运动定律……生物学是否有可能也在某个时刻转变为一门定量科学,利用一系列方程从任何生物过程中做出预测?
毫无疑问,直到30年前,生物学家和大多数科学家都会坚定地给出否定的回答。进化论统一了生物学,而它完全建立在查尔斯·达尔文和阿尔弗雷德·拉塞尔·华莱士的观察之上。格雷戈尔·孟德尔的遗传定律更进一步,使用定量的实验方法得出结论。在遗传学领域,最接近于严格公式的是群体遗传学的基本原理,即哈代-温伯格平衡定律。这一定律表明,在非进化的大型群体中,等位基因和基因型的频率将世代保持不变。当等位基因频率已知且满足某些特定条件时,哈代-温伯格方程可以用于推算基因型频率;而与平衡状态的偏移可以用来度量遗传变异。
在过去的70年里,人们一直在分子生物学的强大框架内研究遗传学原理。我们已经详尽阐释了DNA复制、RNA转录和蛋白质翻译(生物学的信息处理系统)的机制细节。目前尚不清楚的是,算法或方程式能否精确计算或描述,基因调控网络如何控制极其复杂的细胞过程、构建神经系统、协调生物体的发育以及驱动物种进化。自近一个世纪以前克莱伯首次提出克莱伯定律[24]以来,人们已经围绕生物系统的通用生长法则提出了许多假设与争论。[25][26][27][28]我们观察到,自然界的生物体遵守许多能量比例定律。因此,人们相信,我们有希望以严谨的方式提出新的生物调控与生物过程理论,从而为科学家们提供用于研究生物现象的预测框架。
随着工具进步带来实验数据规模的指数级增长,新的计算方法为复杂科学的研究提供了可能,人们逐渐开始质疑数学无法描述生物系统的观点。2000年,史蒂芬·霍金被问及,21世纪是否会成为生物学的黄金时代,就像20世纪的物理学一样。霍金回答:“下一个世纪将是有关复杂性的世纪。”[29]处理复杂性问题的工具正是推动生物学成为真正的定量科学所需要的工具。
在信息革命发生的时候,能够支持生物发现的大规模数据生产技术也同步问世,它们一同推动了生物学研究的范式转变。其中的一个例子是现代DNA测序仪(例如圣迭戈基因组学公司因美纳制造的HiSeq 4000)的诞生对生物学的改变。现代DNA测序仪的运作涉及复杂的化学与分子克隆过程,以及后期对数百万个“合成测序法”反应结果的高分辨率图像捕捉。它能够在1.5天内产生1.5TB(太字节)的惊人数据,足以对6个人类基因组进行完整测序(其中每个基因组包含3×109个DNA碱基)。[30]当我们通过后续计算分析流程完成测序结果的组装时,我们便得到了基于基因组序列的精确计算模板。我们可以将这些模板作为研究癌症基因组、制造药物以及设计疫苗的起点。
癌症研究方法的转变与癌症研究中的计算
对比计算机时代前后癌症研究的进展速度,我们就能发现范式转变带来的影响有多么广泛。20世纪70年代,独立科学家们通过病毒和细胞培养实验在生物实验室里发现了第一个致癌基因:通过一系列经典分子遗传学实验,彼得·迪斯贝格和彼得·沃格特在劳斯肉瘤病毒中发现了致癌基因src(肉瘤)的转化DNA[31]。[32]10年之后,随着重组DNA技术(分子克隆)和DNA测序技术的发展,人们才最终测定了src的基因序列与蛋白产物。在今天看来,这一过程缓慢到让人难以想象。借助分子克隆技术,研究人员可以将含有外源基因的DNA从相应来源转移到细菌或哺乳动物细胞内。20世纪70年代中期,我们才开发出分子克隆技术,并将之投入使用(见第四章)。
要了解src等致癌基因产物的生化性质以及癌症背后的奥秘,我们需要利用许多烦琐的方法来分离相应基因编码的蛋白质,再对它们进行研究。1977年,若昂·布吕热和雷·埃里克森首次成功使用RSV免疫兔的抗RSV血清捕获蛋白质,也就是src的基因产物。[33]随后,丹佛埃里克森研究组[34]成员、加州大学旧金山分校的迈克尔·毕晓普、哈罗德·瓦慕斯和其他同事[35]以及索尔克研究所的托尼·亨特[36]等人进行的生化实验表明,src基因编码了一种蛋白质酪氨酸激酶。
毕晓普和瓦慕斯的一个开创性发现解释了病毒致癌基因的起源。当时,他们提出了一个假说:病毒中的致癌基因来源于正常细胞中负责生长调控的基因。我们是否有可能在人类或其他物种中找到与src具有亲缘关系的蛋白(细胞同系物)?当病毒携带这些基因时,什么原因让它们具有致癌性?通过放射性标记的DNA探针与分子杂交试验,毕晓普和瓦慕斯发现几种禽类的基因组中也包含src样基因,它们能够与病毒DNA复合或形成杂交体(注:劳斯肉瘤病毒具有RNA基因组,因此实验前要先使用逆转录酶,即RNA依赖性的DNA聚合酶,将src RNA转化为DNA)。[37]
20世纪80年代初,在DNA测序方法出现之后,毕晓普和瓦慕斯测定了病毒(包括劳斯肉瘤病毒及其近亲禽类肉瘤病毒)、几种禽类以及人类基因组中的src基因序列。[38][39]DNA序列分析证明,病毒致癌基因的确起源于细胞内的“原癌基因”。到1989年毕晓普和瓦慕斯因其在逆转录病毒和致癌基因方面的工作获得诺贝尔奖时,分子技术和DNA测序已经帮助我们鉴定出了超过60种原癌基因。这些基因编码的蛋白,大多数(包括src)的正常功能是通过信号通路或调控回路控制细胞生长与分化。对DNA序列的研究表明,癌症确实是一种由基因上的改变(突变)引起的遗传病。这种突变有可能是DNA碱基的增加或减少(插入或删除),也有可能是一种被称作点突变的单核苷酸改变(也称作单核苷酸多态性或单核苷酸变异),最终导致蛋白氨基酸序列发生了变化。借助DNA测序技术,我们可以方便地找到这些导致遗传“损伤”的突变。而像src这种基因,我们并未在人类癌症样本中发现它的突变形式;事实上,多份src基因导致的基因异常扩增或信号蛋白的过度表达是它导致癌症的原因。
接着,2000年,历经了一代人的研究之后,罗伯特·温伯格和道格拉斯·哈纳汉从过去数十年的观察和实验(包括对src基因的研究)中总结出了“癌症标志物”的概念,并获得了研究领域和医学界的广泛认可。[40]其中,最著名的两类标志物是“存在激活的致癌基因”与“抑癌基因的失活或缺失”。有证据表明,治疗各种癌症的一种有效手段是使用“靶向治疗”研制专门遏制致癌基因的药物。20世纪80年代发现的致癌基因BCR-ABL为这一领域带来了一项重大突破。[41]BCR-ABL是染色体易位导致的基因融合产物,也是慢性髓细胞性白血病的元凶。慢性髓细胞性白血病是一种罕见血癌,它的两大诱因是细胞生长失控和细胞死亡信号通路(细胞凋亡)失控——它们也是两种癌症标志物。通过筛选靶向ABL癌基因的蛋白质酪氨酸激酶抑制剂,瑞士制药巨头诺华公司发现了化合物甲磺酸伊马替尼。[42]后续研究发现,这一小分子也对其他蛋白质酪氨酸激酶(c-KIT和PDGFRα)具有活性。对于由这些基因中的突变引起的癌症,甲磺酸伊马替尼可能会延缓疾病的发展。2001年,诺华公司的甲磺酸伊马替尼成为首个获得美国食品药品监督管理局批准的慢性髓细胞性白血病精准治疗药物。这一药物在美国的商品名是格列卫。[43]
格列卫的出现将慢性髓细胞性白血病从一种致死疾病转变为了慢性疾病。这一成功极大地推进了其他具有分子特异性的药物的研究与开发。在格列卫被推向市场之际,第一个人类基因组序列测序结果于2001年问世(初稿于2001年发表;完整版于2003年发表),为药物捕手们提供了大量潜在的新药靶点。然而,人类基因组信息本身对癌症研究帮助有限。如果没有基因组学方法为我们揭示基因功能,增进我们对肿瘤生长调控过程的理解,癌症研究就会停滞不前。在这一阶段,科研人员仍然专注于单个基因,临床医生继续通过解剖学手段观察肿瘤(例如乳腺癌、肺癌或肝癌),没有人关注癌症间共有的潜在分子特征。
基因组学后来居上,引领癌症研究进入了更加定量化与计算化的研究阶段。2008年,大规模并行的二代测序技术已然成熟,华盛顿大学圣路易斯分校基因组中心的伊莱恩·马迪斯和理查德·威尔逊在一项提交给美国国立卫生研究院的项目基金申请中提出对整个癌症基因组进行测序。相比于在给定癌症类型中针对单个基因进行假说检验,全面肿瘤测序将为我们提供一种客观的、没有预设立场的无偏方法,用于揭示癌症中的分子变化。也可以说,这一过程是在寻找体细胞突变——在个体出生后发生于易患癌组织中的遗传变化。马迪斯和威尔逊认为,虽然正常人体基因组序列数据对癌症研究帮助不大,但既然自动化DNA测序技术和信息学工具已经就位,那么他们可以尝试开发一种新的研究方法,即肿瘤/正常细胞测序。基金审批人员却有着不同的看法。他们强烈建议,与其耗资100万美元进行大规模肿瘤DNA测序,不如继续采取过去20年的传统方法,对单个基因进行深入研究。
尽管基金申请并未获得批准,但马迪斯、威尔逊和基因组中心的同事们仍坚持利用因美纳公司最新的基因分析仪器对一位急性髓系白血病患者进行了DNA测序。这篇具有历史意义的论文发表在2008年的英国《自然》杂志上。首先,二代测序技术以惊人的准确性识别出了患者肿瘤组织与正常皮肤细胞基因组间的3 813 205个单核苷酸多态性位点。接着,借助计算分析工具,研究人员排除了自然发生的和非肿瘤特异的单核苷酸多态性位点,最终确定了8个获得性体细胞突变,并对每一个突变位点进行了独立验证。他们在论文摘要的结尾重重驳斥了短视的基金审批人员:“通过研究,我们将全基因组测序技术发展成了一种无偏的癌症起始基因发现方法。这些在过往研究中被忽略的基因也可能成为靶向疗法的靶点。”[44]
在接下来的10年间,癌症基因组图谱[45]、国际癌症基因组联盟[46]等组织对数以千计的癌症基因组进行了测序。与此同时,癌症基因组研究催生出了一类新的产业:利用已知DNA突变、癌症特异性基因表达谱的分子特征以及细胞表面抗原进行癌症诊断。基因组测序(包括全基因组测序、全外显子组测序和靶向测序)带来了令人难以想象的数据资源,包括ClinVar、dbGAP和COSMIC(癌症体细胞突变目录)[47][48]在内的许多数据库因此兴起。COSMIC始建于2004年,它是一个基于文献的科学数据库,旨在搜集所有已发表的肿瘤样本和突变数据。第一年,通过桑格研究所的相关项目,COSMIC整理收录了66 634个肿瘤样本和10 647个相关突变。到2018年,COSMIC的数据量大幅增长,达到了140万个样本和600万个突变。通过分析庞大的数据样本,研究人员发现223个关键癌症基因驱动了几乎全部200种人类癌症。[49]
与这些研究进展矛盾的是,对于大部分癌症,我们仍然没有办法对相关基因或信号通路进行针对性治疗。制药业在癌症新疗法研发方面取得的成果非常有限,全球大多数癌症药物发现计划的成功率仅徘徊在10%左右(如果我们计算流失率,那么临床试验阶段的失败率高达90%)。制药业高管一致认为,要想提升候选药物在临床管线中的通过率,为面临严酷化疗和手术的无数癌症患者增加生存机会,肿瘤药物研发还需要解决几个关键问题。在人们看到了免疫疗法在数种癌症中展现出的奇迹般的效果后,大量投资就会立刻涌入免疫疗法与嵌合抗原受体T细胞免疫治疗领域。与此同时,经典的基于靶点的小分子药物设计则亟待由功能基因组学提供新的思路。为什么候选药物没有实现预想的治疗效果?为了回答这个问题,我们需要首先确认药物针对的靶点蛋白(即从肿瘤中发现的致癌驱动因子)是否为理想的目标,并思考如何才能提升抗癌药物的临床疗效。例如,大多数药物筛选试验是在癌细胞系中进行的,我们是否理解这些细胞模型在分子层面的特征?我们应该像分析原发性肿瘤一样对这些细胞系进行全面的分子特征分析。另外,人们还发现,虽然有些药物无法观测到积极的临床统计效果,但这些药物确实能够结合靶点蛋白,并且特定的基因突变谱更容易响应这些药物。这就是个性化精准医疗的雏形——“在正确的时间为正确的患者提供正确的药物”,以获得更好的结果。人们期待,通过进一步洞察基因组、表观基因组和临床数据,能够更好地判断患者对特定药物的响应,从而促使抗癌化合物研发走向更加量身定制的方向。
一支来自英国的顶尖科学团队率先做出了尝试。他们利用数据驱动的方法整合了功能基因组分析与药物筛选过程,并借助机器学习挖掘出了能够预测药物反应的癌细胞特征。[50]这个由马修·加尼特研究组开发的框架高度依赖于定量方法。他们借助计算机算法从11 289个人类患者肿瘤样本的基因组数据中找到了数千个具有临床意义的癌症功能事件。这些事件大致可以分为突变、扩增和缺失,以及基因启动子高甲基化——这是癌症表观遗传修饰改变的重要特征。利用这些多组学数据与基因表达谱分析(转录物组学),加尼特研究组评估了超过1 000种源自肿瘤的癌细胞系,建立了这些细胞系的状态矩阵,确定了基于多组学的“脱水”版癌症功能事件。通过对比原发性肿瘤与细胞系,加尼特研究组发现了大量跨细胞系存在的重要癌症相关突变,这为我们利用这些分子特征明晰的体外模型进行药物敏感性筛选奠定了基础。
接下来,研究人员通过一项大规模药物基因组学分析实验测定了265种化合物对不同细胞系的细胞活力的影响,从超过20万条剂量—反应曲线中产生了超过100万个数据点(每个化合物对应5个数据点)。研究人员将所有实验得到的数据(IC50值)输入了基于统计学和机器学习的混合定量框架,最终输出结果便可以提示我们哪种药物更适用于哪种癌症,以及什么样的数据类型对于药物敏感性具有最佳预测效果。药理学模型揭示了大量具有癌症特异性的药物—基因组相互作用,而机器学习模型表明,基因组特征(癌症驱动突变和基因扩增)最适合用于敏感性预测。对某些特定类型的癌症而言,DNA甲基化数据相较于基因表达数据能够进一步提升模型表现。药理学模型为我们提供了可以用于临床测试的潜在新疗法,具有直接的临床意义;而机器学习模型告诉我们,癌症临床诊断应侧重于检测潜在的DNA改变,而非其他肿瘤分子特征(如DNA甲基化与基因表达)。如果要研究单个基因如何影响癌症表型或药物反应,基于CRISPR-Cas9的基因组尺度筛选是更加有效的方式。[51]这种分子遗传学方法是另一种全面客观、没有预设立场的无偏研究手段。借助CRISPR-Cas9技术,我们可以用极其精确的方式激活、突变或沉默(敲除)单个基因。当早期研究聚焦于特定基因和通路时,这种基因组水平的筛选能够检验基因组中的每一个基因,以及基因组中可能存在的其他功能性元件。通过在细胞系模型中利用CRISPR系统进行功能失去型筛选,我们可以快速发现那些能够促进癌症转化、维持肿瘤性质的关键药物靶点蛋白和细胞通路,这让CRISPR技术变得颇具影响力。而算法则用于处理实验中产生的信息并确定癌症药物靶点的优先级。
类似的研究思路使得计算癌症研究逐渐成为热点。在一项研究中,贝汉及其同事设计了基因组水平的CRISPR-Cas9筛选实验,通过细胞活力测试找出了对癌细胞存活至关重要的基因。[52]他们对324个癌细胞系中的18 006个基因进行了定向敲除,并通过超过900组实验测定了每个基因的“适应值”(这里的适应值与癌细胞存活能力相关)。最终,每个细胞系有1 459个处于中位的基因进行了适应值测量。这种体量的结果已经大大超过了传统研究方法的能力极限。因此,贝汉等人设计了一种叫作ADaM的计算机方法,对所有测定了适应值的基因进行了分类。如果一个基因在全部13种癌症类型(比如乳腺癌、胰腺癌、中枢神经系统肿瘤)中的12种里都被指定为低适应值基因,那么它就被称作“泛癌核心低适应值基因”,而其他基因则是“癌症特异型低适应值基因”。研究人员一共找到了533个泛癌核心低适应值基因。其中的399个是早前报道过的关键基因,还有123个是新发现的关键基因,它们参与了癌细胞的必需功能。而在癌症特异型低适应值基因组中,研究人员又发现了866个关键基因。后续分析从这两组基因中一共找出了628个可能的新药物靶点,其中74%的靶点仅针对某一种或两种特定癌症,这是非常了不起的分析结果。这项由计算驱动的研究,无论是规模还是成果都令人赞叹不已。它给癌症药物设计这一靶点贫乏的领域提供了进一步探索的工具及与治疗方法相关的假说,以利用体外或体内癌症模型进行测试与检验。
结构生物学与基因组学
数据科学和计算方法是结构生物学的驱动力。要想更加高效合理地搜寻关键靶点蛋白或改变复杂细胞通路,药物研发人员就需要依赖基因组学与结构生物学共同提供的关键数据。在身在北京的中国科学家上传新型冠状病毒基因组数据之后,数小时内,世界各地的研究人员就可以通过云计算工具分析序列、设计实验,并在实验室合成相关基因和蛋白质来进行进一步研究了。
当科学家谈论蛋白质结构时,他们通常指的是二级或三级结构——它们都是蛋白质在自然界中折叠的结果。所有蛋白质均由一串氨基酸类化合物组成,每种氨基酸都属于20种通用氨基酸中的一种。每种蛋白质独特的三维结构决定了它的生物学功能。蛋白质一级结构只是氨基酸的有序排列,二级结构则由一级序列的模式决定。一级结构中的重复序列就是一种常见模式,它可以形成螺旋,或各样片层形式的二级结构。
要获得三维结构数据,我们必须找到对应基因并生产相关蛋白质。首先,我们利用标准分子生物学方法扩增并克隆基因片段。然后,我们将克隆材料插入细菌基因组(有时也用酵母或其他细胞)并进行菌落培养,这些菌落就会生产重组蛋白。纯化并冷冻保存的蛋白或送入冷冻电子显微镜,或在结晶后通过X射线晶体学方法进行结构观察。
2020年还没过去几个月,研究人员就已经从基因组序列中解析出了新型冠状病毒3个重要蛋白的原子尺度三维结构。这3个蛋白是制药和疫苗设计的关键靶点:刺突糖蛋白、主蛋白酶和依赖于RNA的RNA聚合酶。尽管新型冠状病毒基因组是迄今为止人们发现的最大的RNA病毒基因组之一,但它一共仅编码不到30种蛋白质。相比之下,大肠杆菌(存在于人体微生物组中)这样的原核生物基因组拥有大约5 000个基因,而苍蝇、马和人类等生物体包含1.5万~3万个蛋白质编码基因。
在利用冷冻电子显微镜技术获取并处理了7 994幅显微影片后,我们获得了分辨率高达2.9埃(水分子的直径是2.75埃)的新型冠状病毒依赖于RNA的RNA聚合酶复合物(包括nsp7蛋白和nsp8蛋白)图像。[53]这一结构基础不仅帮助我们理解了瑞德西韦这种抑制剂分子与复合物结合的原理,还启发我们进行了更多候选抗病毒药物的设计。刺突糖蛋白是病毒结合宿主细胞表面受体ACE2所必需的病毒表面蛋白。[54]类似地,刺突糖蛋白的三聚体构象结构(见图1—2)也为我们带来了药物设计的灵感。还有主蛋白酶结构——一种蛋白水解加工酶,它的作用是从较长的病毒多蛋白序列中切割和释放成熟蛋白片段,对于病毒不可或缺。[55]在未来几个月里,为了推动新冠药物研发,我们将会解析出更多高分辨率的药物结合蛋白结构域以及抗原抗体复合物结构。

图1—2 新型冠状病毒刺突糖蛋白结构[56]
如何利用纯计算的方法,从线性一维序列中预测出蛋白质三维结构,是结构生物学的圣杯级问题。在我们能够利用一个服务器集群中的数千个计算节点来运行蛋白质折叠算法之前,人们便已经进行了一系列尝试。例如,华盛顿大学的Folding@home项目。这一项目起始于2000年,由斯坦福大学维贾伊·潘德实验室启动。他们以招募志愿者的方式,利用志愿者个人电脑里的CPU(中央处理器)来进行分布式计算。[57]在过去的20多年里,潘德实验室发表了上百篇论文,也利用新型冠状病毒基因组预测了大量高质量结构。DeepMind公司(2015年被谷歌收购)的团队则搭建了AlphaFold模型,首次发布了使用深度学习模型预测蛋白质结构的工作成果。[58]这一成果最令人赞叹的一点是,他们的算法可以不借助同源模板对一级结构建模。AlphaFold的核心是卷积神经网络,它以蛋白质数据库中的结构作为训练数据,学习预测蛋白质残基对的碳原子之间的距离。
DeepMind在网站上宣称,“无模板”或从头计算的自由建模方法可以预测新型冠状病毒的部分蛋白结构。[59]大量计算研究组正在通过一系列创新方法尝试更加准确的三维结构预测,DeepMind和Folding@home只是其中的缩影。每年,CASP(国际最知名的蛋白质结构建模预测比赛)都会吸引50~100支团队参与。在自由建模这个类别中,AlphaFold在CASP13上的表现远超大众预期,在每年的进展曲线上留下了一个陡峭的转折。随着疫苗和治疗开发走上制药领域的中心舞台,计算机生成的分子结构或将对全球公共卫生产生重大影响。