中国科学院院士陈润生:解析生物医学大数据,人工智能是最适用手段
【院士访谈】
◎本报记者 张佳星
当前最核心的生物医学大数据问题是解决各种可测量的数据,包括遗传密码与表观表型之间的关系问题。我们知道分子水平的基因组学、蛋白质组学研究产生的数据量不计其数,近年来发展起来的表型组学研究也在不断积累数据量,我们会逐渐拥有大量的表观数据。那么这两大数据如何偶联?如此规模巨大、系统复杂的分析只能由人工智能来完成。
近段时间,人工智能大模型展现了强大的自然语义处理能力,再次掀起了人工智能的研究热潮。从图灵测试开始,机器人能否与人对话就被用作判断机器是否具有高级别认知智能的依据。大模型的建立,让人工智能距离通过图灵测试更近一步。
那么,当前的人工智能还有哪些潜力?在生物医学领域应如何更进一步发展适用的人工智能?科技日报记者日前对中国科学院院士、中国科学院生物物理研究所研究员陈润生进行了采访。
生物信息数据量大、维度广
记者:距离人类遗传密码被破译已经过了20多年,但似乎仍有很多健康问题难以解决,这是为什么?
陈润生:过去我们认为生物网络是“单色”的,或者说是单因素作用的。因为当时我们认为具有生命功能的分子只有蛋白质,遗传物质经过转录、翻译的过程转化为蛋白质,进而执行生命活动中的各项功能。
基于这样的认知,人类遗传密码的破译被理解为解读“生命天书”。将人类全部30亿个碱基序列全部测序完成,就能读懂这部“生命天书”,提纲挈领地搞清生命活动的运转体系,从而揭开所有健康的秘密,获得解决健康问题的手段。
但现在我们发现,生物网络不是“单色”的,生命活动的调控、抑制、互作中,还有核酸的参与。比如有些核酸序列也会发挥之前被认为属于蛋白质的功能,调控细胞活动。在承载人类遗传信息的30亿个碱基对中,还有很大一部分虽然我们读出了序列,但并不知道功能,它们在生命活动中究竟起到什么作用也没有被研究清楚。大量这样的区域被称为遗传物质的“沙漠区”……因此,当前对人类遗传密码的破译进程只走了解决健康问题过程中的一小步。
记者:既然生命活动这么复杂,是否需要更多的生物信息数据才有希望破解健康难题?目前需要充分利用的有哪些维度的生物信息学数据?
陈润生:这30年来,人类遗传密码的破译带动着整个生物医学领域内广泛的数据都成为了大数据。
生物信息学最早的研究对象是遗传密码,研究任务是对遗传密码进行收集、整理、存储、发布、分析和解释。现在数据更广泛了,生物信息学的研究从20世纪八九十年代创立时的无信息可用,到现在数据呈现海量、多维、异质化特征。比如通过电子病历大数据挖掘,我们可以得到很多重要信息。中山大学一些研究人员通过电子病历分析找到的科学结论被发表在了国际著名期刊上。又比如可穿戴设备带来的生理生化指标,这类信息具备实时、环境情绪相关等特性。这些数据还包括医院中的影像学数据、临床病人在治疗用药后的病情变化数据、环境数据、微生物数据、地质数据、化学农药残留数据等。所有这些跟健康相关的数据集纳起来,构成了非常复杂的健康大数据类型。
可大幅提高生物信息处理能力
记者:如何解析复杂的健康大数据?
陈润生:健康大数据很复杂,举例来说,电子病历写的是字,处理这样的信息需要自然语言处理模块,生理生化指标如脑电、心电等信息需要处理的是波形图,而影像学要处理图像,组学要处理符号。对这些性质各异的生物信息进行全面提取处理,就如同秦始皇统一六国不仅要统一文字、语言,还要统一货币、度量衡,需要将不同的信息融通,再做解析和决策。
当前最核心的生物医学大数据问题是解决各种可测量的数据,包括遗传密码与表观表型之间的关系问题。我们知道分子水平的基因组学、蛋白质组学研究产生的数据量不计其数,近年来发展起来的表型组学研究也在不断积累数据量,我们会逐渐拥有大量的表观数据。那么这两大数据如何偶联?如此规模巨大、系统复杂的分析只能由人工智能来完成。
目前来看,要解析生物医学大数据,人工智能技术是最适用的手段。
记者:从最初的人工智能到阿尔法狗再到大模型,人工智能发生了哪些变化?当前的大模型在处理生物医学信息方面有哪些优势?
陈润生:20世纪80年代,由于受算力和算法的限制,我们能设计运行的人工智能神经网络非常简单,只有几层。
现在的人工智能神经网络,比如阿尔法狗、阿尔法折叠等,它的网络模型架构达到200—300层。当今的计算能力能够使它们完成更加复杂的任务。
人工智能大模型让人工智能更进一步。我认为大模型的出现表明人工智能有了多方面、更深刻的进展。第一方面是对自然语言的处理能力发生了根本性的变化。处理人类的自然语言对于计算机来说很困难,突破这个能力后,人工智能可以拥有全局性的知识作为计算的基础。
第二方面进展是具备了预学习能力。人类之所以能产生智慧,是因为从出生以来一直在不断积累学习。现在在大模型中,计算机已经可以预学习了,能够在大量的知识被预先获得的前提下,再将具体科学问题交给计算机,而不是针对某一个特定问题进行学习。
第三方面进展是可积极促进模态融合。模态融合可以这样理解,比如人工智能不仅能完成基础医学里的结构预测工作,还能完成临床医学中的识图判读工作,更重要的是可以把这两个能力融合起来,即人工智能在每个领域都具备专家的知识,又能够融会贯通、举一反三。
基于以上三点,我认为发展人工智能作为未来医学大数据挖掘的工具值得重视。
以人工智能解析生物医学大数据
记者:很多人在健康出现问题之后的第一反应是“为什么会这样”,以后人工智能可以解答这样的问题吗?
陈润生:想要回答“为什么会这样”这个问题涉及到人工智能界的两个提法:弱人工智能和强人工智能。弱人工智能就像阿尔法狗,能处理特定任务。而强人工智能被认为是有可能制造出来的、真正能推理和解决问题的智能机器。
所以你的问题其实是在问,强人工智能有可能出现吗?过去我认为是不可能的,但现在看来,我觉得随着大模型的出现,一些问题正在破冰,强人工智能有了出现的苗头和希望。当然,现阶段人工智能的发展与真正的强人工智能还差得很远。
当前我们正在进行一些与医学相关的人工智能研究。比如扩大健康问题相关的参数,抽提面部、表情等特征,也融合基因组、转录组、蛋白组、宏基因组、表观组等全部维度的特征,甚至加入了中医内容,通过多模态融合建造医学多模态数据智能整合计算平台,我们称之为“灵枢”,并将其用于医学健康问题的实践。
记者:网上有人调侃,能写论文的人工智能却无法解释清楚“驴肉火烧”“鱼香肉丝”,而生物医学领域对于人工智能的要求更高,您认为如何让人工智能具有更严谨的运行能力?
陈润生:如何才能让人工智能解释清楚“驴肉火烧”“鱼香肉丝”等人类世界的问题,其实是在问如何才能让人工智能达到强人工智能的水平。
人工智能的智能水平主要由三个因素决定:数据、模型和算力。数据掌握在用户手中,模型需要不断研发讨论精进,算力是由计算机的能力决定的。
从这三个决定因素入手,我们能够发现,在数据方面,要解决相应的科学问题,人工智能掌握信息量高、信噪比低的足够信息就可以了。在算力方面,要依靠计算机科学家不断从硬件等解决方案入手提高运算能力。
只有模型方面是值得研讨的,现在的模型理论够不够达到强人工智能的要求,如何让模型更强?
目前有几个途径可以让模型更强,即增加知识量、增加网络节点数、增加网络复杂度。当前国际上几个大模型的处理数据量已达到万亿参数级别,在此基础上,我认为需要进一步增加的是网络复杂度。
我们可以从生理学家的脑生理切片模型中得到启发。新生儿的脑神经网络很简单,复杂度不够,学不了多少东西。成长让人的脑神经网络逐步复杂,进而承载更多内容。因此,我们可以从研究脑发育中获得启发,进而形成一个更完善的基础理论框架,获得适用的模型,使人工智能走向强人工智能。