人工智能时代的科学发现
近日,以深度学习先驱 Yoshua Bengio 领衔,哈佛医学院 Marinka Zitnik 教授为通讯作者,斯坦福博士后王瀚宸为一作的多国多机构研究团队在《Nature》发表题为「Scientific discovery in the age of artificial intelligence」(人工智能时代的科学发现)的综述文章。
文章回顾了过去十年的突破,包括自监督学习和几何深度学习。生成式 AI 方法可以通过分析不同的数据模式来创建小分子药物和蛋白质等设计。
讨论了这些方法如何在整个科学过程中帮助科学家,以及尽管取得了这些进步,但仍然存在的核心问题。AI 工具的开发人员和用户都需要更好地了解何时需要改进这些方法,以及数据质量和管理不佳带来的挑战仍然存在。这些问题跨越了科学学科,需要开发有助于科学理解或自主获取科学理解的基础算法方法,使其成为 AI 创新的关键领域。
数据收集和分析是科学理解和科学发现的基础。从显微镜等物理仪器到自举(bootstrapping)等研究技术,长期以来一直用于实现这些目标。
2010 年代初,深度学习的兴起极大地扩展了这些科学发现过程的范围。AI 越来越多地应用于科学学科,用于整合大量数据集,改进测量,指导实验,探索与数据兼容的理论空间,并提供与科学工作流程集成的可操作且可靠的模型,用于自主发现。
尽管科学实践和程序在科学研究的各个阶段有所不同,但 AI 算法的发展跨越了传统上孤立的学科。此类算法可以增强科学研究的设计和执行。通过优化参数和功能,自动化收集、可视化和处理数据的程序,探索候选假设的广阔空间以形成理论,生成假设并估计其不确定性以提出相关实验,它们正成为研究人员不可或缺的工具。
图 1: AI 时代的科学。(来源:论文)
与利用 AI 的其他领域相比,将 AI 用于科学创新和发现带来了独特的挑战。最大的挑战之一是科学问题中假设空间的浩瀚,使得系统的探索不可行。例如,在生物化学领域,估计有 10^60 种类似药物的分子有待探索。尽管存在这些挑战,但 AI 系统可以实现高效、智能和高度自主的实验设计和数据收集, AI 系统可以在人类监督下运行,以评估、评估结果并采取行动。
AI 在科学研究领域取得了进展,比如成功解开长达 50 年的蛋白质折叠问题,以及 AI 驱动的数百万粒子分子系统模拟。然而,也伴随着新兴领域「AI for Science」(AI4Science)的重大挑战。与任何新技术一样,AI4Science 的成功取决于我们将其融入日常实践的能力,以及了解其潜力和局限性的能力。
在科学发现中广泛采用 AI 的障碍包括发现过程中每个阶段特有的内部和外部因素,以及对方法、理论、软件和硬件的效用的担忧,以及潜在的滥用。
该综述主要分以下几部分:
- AI 辅助的科学研究数据收集和整理
- 学习科学数据的有意义的表示
- 基于 AI 的科学假设生成
- AI 驱动的实验和模拟
- 重大挑战
AI 辅助的科学研究数据收集和整理
实验平台收集的数据集的规模和复杂性不断增加,导致科学研究越来越依赖于实时处理和高性能计算,以选择性地存储和分析高速生成的数据。
这里分为:数据选择、数据注释、数据生成、数据改进。
学习科学数据的有意义的表示
深度学习可以在各种抽象层次上提取科学数据的有意义的表示,并对其进行优化,以指导研究,通常是通过端到端学习。一个高质量的表示应该保留尽可能多的数据信息,同时保持简单和可访问性。科学上有意义的表征是紧凑的、有区别的,能够理清潜在的变异因素,并编码在众多任务中一般化的潜在机制。在这里,介绍了满足这些要求的三种新兴策略:几何先验、自监督学习和语言建模。
图 2:学习科学数据的有意义表示。(来源:论文)
基于 AI 的科学假设生成
可检验的假设是科学发现的核心。它们可以有多种形式,从数学中的符号表达式到化学中的分子和生物学中的遗传变异。提出有意义的假设可能是一个艰苦的过程,约翰内斯·开普勒(Johannes Kepler)就是一个例子,他花了四年时间分析恒星和行星的数据,然后得出了一个导致发现行星运动规律的假设。
AI 方法可以在这个过程的几个阶段提供帮助。它们可以通过从嘈杂的观察中识别候选符号表达式来产生假设。它们可以帮助设计物体,例如与治疗靶点结合的分子,或与数学猜想相矛盾的反例,建议在实验室进行实验评估。此外,AI 系统可以学习假设的贝叶斯后验分布,并使用它来生成与科学数据和知识兼容的假设。
图 3:AI 引导下的科学假设生成。(来源:论文)
AI 驱动的实验和模拟
通过实验评估科学假设对科学发现至关重要。然而,实验室实验既昂贵又不切实际。计算机模拟已经成为一种很有前途的替代方案,为更有效和灵活的实验提供了潜力。虽然模拟依赖于手工制作的参数和启发式来模仿现实世界的场景,但与物理实验相比,它们需要在准确性和速度之间进行权衡,这就需要理解潜在的机制。然而,随着深度学习的出现,这些挑战正在通过识别和优化有效测试的假设以及授权计算机模拟将观察与假设联系起来来解决。
图 4:AI 与科学实验和仿真的结合。(来源:论文)
重大挑战
为了利用科学数据,必须建立模型,并利用模拟和人类专业知识。这种融合为科学发现提供了机会。然而,为了进一步增强 AI 在科学学科上的影响,需要在理论、方法、软件和硬件基础设施方面取得重大进展。跨学科合作对于实现通过 AI 推进科学的全面和实用方法至关重要。
结论
AI 系统有助于科学理解,能够对无法以任何其他方式可视化或探索的过程和对象进行研究,通过从数据中构建模型并将其与模拟和可扩展计算相结合,系统地激发想法。
为了实现这一潜力,必须通过负责任和深思熟虑的技术部署来解决使用 AI 带来的安全和安保问题。为了在科学研究中负责任地使用 AI,需要衡量 AI 系统的不确定性、误差和效用的水平。这种理解对于准确解释 AI 输出和确保我们不会过于依赖可能存在缺陷的结果至关重要。
随着 AI 系统的不断发展,优先考虑可靠的实施和适当的保障措施是最大限度地降低风险和最大化效益的关键。AI 有可能解开以前遥不可及的科学发现。
王瀚宸在提到 AI for Science 值不值得研究时,他觉得可以看这么两点:首先「有没有搞头(天时)」,再者「能不能做好(地利人和)」。总的来说,AI for Science 的想象力空间巨大、发展势头刚起,但是否要躬身入局,还是要结合自身情况,量力而行。总之踏实做事、忠厚待人、广结善缘,生活总不会太差,与君共勉。
感兴趣的读者可以阅读论文原文,了解更多研究内容。