layout: post title: 【转】吴家睿:生命的复杂性和复杂的生命科学 categories:
复杂性(complexity)是最近几年学术界比较流行的术语,但什么是复杂性却没有几个人能够说清楚。郝柏林先生曾统计过,对复杂性的定义已不下30种之多,但仍很不完备。换个角度来说,给一个概念定义得过于严格也常常会限制人们的思考,尤其像复杂性这样含义丰富的术语。正如美国著名物理学家费恩曼(R. P. Feynman)所指出,“要给一个概念下一个非常严格的定义往往是不值得的。”因此,笔者在文中不准备讨论复杂性的内涵,而试图对生命的复杂性进行描述,并分析这种复杂性对生命科学研究的影响。
2002年5月,德国一个研究小组在英国《自然》周刊上宣布,他们在冰岛北部海下120米深处发现了一种迄今所知最小的生命。这种被称为“Nanoarchaeum equitans”的微生物属于古细菌的一种,其基因组的DNA碱基对仅有50万左右。假设一个基因的平均长度为1000个碱基,那么这个细菌所拥有的基因大约是500个。如果每个基因编码一种蛋白质,那么这个细菌最多可以拥有500种蛋白质。这篇文章告诉我们,哪怕是最小、最简单的生物体,也是由许多执行不同功能的组分构成的。因此,生命复杂性的第一个特征是,生命是一种复合体,不可能由一个成分(一种基因或蛋白质)构成。
作为复合体的生命,其组成成分并非简单的堆积,而是彼此间有着广泛的相互作用。芽殖酵母的基因组拥有6000种左右的蛋白质,但到目前为止人们已经知道的酵母蛋白质与蛋白质相互作用联系种类,就已接近1万。据保守的估计,在酵母细胞里至少存在着3万种蛋白质与蛋白质相互作用。随着各种物种基因组全序列分析的完成,人们看到,生命的复杂程度并不与基因数目成正相关。如水稻基因组可能编码蛋白质的“开放阅读框”(open reading frame,ORF)大约是4.6万到5.5万,而人的ORF数目则低于4万。显然,在生命从低级到高级的进化过程中,有可能是蛋白质之间的相互作用在起主导作用,越是高级的生命,其相互作用越广泛。由此可以概括出生命复杂性的第二个特征——组分之间有着广泛的相互作用。换言之,生命的本质是由组成元素之间的关系所决定,而非组成的物质本身。
生命组成成分的相互作用很早就被人们所认识,但是最初的观点,是把这些相互作用看成一些线性的联系,即甲因子作用于乙因子,乙因子再作用于丙因子,依次递推。比如过去的教科书里,生化代谢途径或者信号传导过程常常被描述成直线式的作用图。但近年来,科学家已承认,生命内的这些相互作用不是直线式的,而是交错编织形成的网络。这种广泛存在的相互作用网络引出了生命复杂性的第三个特征:次序和层次。由于生命中各组成成分有着稳定的相互作用,从而形成了有序的结构,也就是人们常提到的“自组织”。生命自诞生那天起,就是一个与外部环境相对独立的系统,并且通过与外界交流物质和能量维持其有序性。随着生命的逐渐演化,次序发展出了层次:各种生物大分子相互作用并形成了不同的功能区域(细胞器等),这些功能区域组合成细胞,各种执行不同功能的细胞又汇聚成组织,组织与组织的结合又产生器官,最终形成了多细胞的生物体。
生物体的每一个层次都拥有特定的行为或性质。这类行为或性质不存在于构成它的组成成分里,而是由组成成分间的相互作用所形成。因此,生命复杂性的第四个特征是,整体比它的部分之和更大。研究复杂性系统的科学家把这种现象称为“涌现”(emergence)。生命系统的涌现是属于非线性的,即不能通过简单地叠加构成成分的行为推导出系统的行为。此外,系统组成部分的微小改变常常会被迅速放大并导致系统状态的改变,即所谓的“蝴蝶效应”:地球一端的一只蝴蝶扇一扇翅膀,可能改变地球另一端的气候。2001年9月,美国《科学》周刊发表的一个研究报告很能说明这一点。澳大利亚科学家通过测定1918年因“西班牙流感”而死的病人组织中流感病毒的基因序列,发现其强烈的感染性可能是由于人流感病毒编码血凝素的基因中的一小段序列,与猪流感病毒的血凝素基因序列重组所导致的。也就是说,有史料记载的最大一次瘟疫(死亡人数超过第一次世界大战的死亡人数)——“西班牙流感”,其起因仅仅是流感病毒内一个基因的一段序列的改变。
这种“整体大于部分之和”和“涌现”性质,是生命诞生及其进化的主要动因,生命通过改变自身以适应变化着的外部环境。这种特性使得地球上形成如此繁多的生物物种,使得人类这样高级的生命形态能够从原始的细菌进化而成。在这个意义上,美国科学家霍兰(J. H. Holland)提出,“适应性造就复杂性”。因此,生命复杂性的第五个特征是,系统具有开放性,可以在过程中不断地演化。生命不是一种简单的“自稳态”系统——通过负反馈的调节控制来稳定自身的状态,从而适应外界的变化;而是一种远离平衡状态的开放系统——通过不断地形成新性质或新功能来适应外界的挑战或改变。
20世纪的生命科学研究主流是分子生物学。这是一种“简单的”生命科学,其研究基础建立在还原论和线性思维上。还原论的基本前提是,在由不同层次组成的系统内,高层次的行为是由低层次的行为所决定的。具有还原论观点的生物学家通常认为,只要认识了构成生命的分子基础,如基因和蛋白质,就可以理解细胞或个体的活动规律。对于他们来说,生命是一种线性活动,即生命现象是由各个构成成分的孤立活动来决定的,组分之间的相互作用常常被忽略不计。
尽管分子生物学在近半个世纪取得了显著的成绩,但是并没有完全揭示出生命的奥秘。究其原因就在于以上所讨论的生命之复杂性,这是“简单的”生命科学研究方法难以处理的。今天,科学家正在试图发展出能够研究“网络”、“涌现”等复杂性行为的“复杂”的生命科学,如功能基因组学、蛋白质组学、数学生物学和系统生物学等。
复杂的生命科学的另一层含义是,生命科学理论的形成和发展并不遵循物理学或化学等“正统”科学理论的运行模式。
著名科学哲学家波普尔(K. R. Popper)曾提出,区别科学与非科学的标准是“可证伪性”:只有可以被反驳、被证伪的理论才是科学理论。科学的历史就是一系列的猜想、反驳、再猜想、再反驳。可证伪性的关键是,其命题必须是一个全称命题。例如,陈述“所有天鹅都是白的”具有可证伪性,因为发现一个黑天鹅就可以否定这个陈述。而“一些天鹅是白的”则无法证伪。
生命科学的发展历史表明,生命科学理论充满了例外。DNA双螺旋发现以后,人们曾经一度认为,遗传信息是从DNA传递到RNA,再到蛋白质的。但随后的研究表明,遗传信息也可以从RNA传递到DNA。起初大家公认具有催化功能的生物大分子都是蛋白质(酶),但很快又发现,某些RNA也是具有催化活性的。过去认为组成蛋白质的天然氨基酸只有20种,但在1986年发现了第21种——硒胱氨酸,2002年又发现了第22种——吡咯赖氨酸。此类事例不胜枚举。需要强调的是,这些例外只是补充和丰富了原有的理论,并没有“证伪”和抛弃原有的理论。
基于生命科学的研究对象是一个具有“开放性”和“涌现性”的复杂系统,笔者在这里大胆地提出一个“全称命题”:生命科学的陈述或假说都是非全称性的。换句话说,当我们在从事生命科学研究的时候,不要指望其研究结论能“放之四海而皆准”,要随时意识到生命的多样性和复杂性。
另一位科学哲学家库恩(T. Kuhn)认为,科学的发展是不连续的,由在某种“范式”(paradigm)指导下进行研究的“常规科学时期”和新旧范式转换的“科学革命时期”组成。所谓“范式”由某种(某些)公认的研究准则和研究实例组成,是一种在其研究领域占主导地位的理论。科学的发展就是一个范式取代另一个范式,如发生在量子力学与牛顿力学之间的故事。
纵观生命科学的研究历史,并没有出现这种新旧范式交替的科学革命,呈现的是一种连续的渐变过程。以基因理论的演变为例。上世纪初,摩尔根等人提出了基因学说,认为基因是最小的遗传单位,以线性的方式排列在染色体上。在1950年代,随着DNA双螺旋结构的发现和中心法则的确定,人们知道了基因的化学性质:一段DNA序列,含有编码一个蛋白质的遗传信息。在1970年代科学家修改了基因理论,承认有些基因会在染色体上移动。在1980年代生物学家又发现基因可以是不连续的,有些基因在编码蛋白质的DNA序列之间插有一些非编码序列。尽管基因理论在一个世纪的过程中被补充和修改了一次又一次,但并没有出现一种替代它的新范式(理论)。
依笔者之见,在生命科学研究领域不存在“范式”,也没有类似于物理学的“大统一理论”。一种生物学理论通常局限于解释一部分生命现象。如在遗传学领域,有研究非连续性性状的孟德尔和摩尔根的遗传理论,有研究连续性性状的数量遗传学,还有研究基因组印记(genomic imprinting)等修饰性遗传现象的外加遗传学(epigenetics)。后基因组时代,依然是一个“百家争鸣”的时代。