AI 辅助阅读实践经验:如题,通过PDF文献上传 Claude 2 并问答,精读陌生领域(计算机科学)最新文献。通过深度思考与多轮对话,逐步深入,了解研究全貌及相关概念。通过此过程,再回到熟悉的领域,将会有新的问答技巧和思维方式。
累计对话文字量约 1 万 7 千字,将内容重新理解、梳理,撰写为下文,约2500字。
2023 年10月,由澳大利亚莫纳什大学(Monash University,全球领先的研究型大学之一)数据科学与人工智能系的计算机科学家团队,发表题为《大语言模型在科学综合、推理和解释中的应用》的研究论文。
摘要及相关信息
该研究旨在探索大语言模型在科学发现中的潜力和应用前景。作者基于开源项目的大语言模型,自行设计了 LLM 4 SD(Large Language Models for Scientific Discovery) 框架,通过语言模型的知识综合、推理和解释等能力来辅助科学发现与预测。该研究验证了大语言模型在科学领域推理、建模和解释的强大能力。
LLM 4 SD 框架为语言模型辅助科学发现提供了有效的技术路线。通过统计检验和文献调研,验证和分析了语言模型生成的规则,展示了该方法可以重新发现已有科学原理,也可以发现新的见解。
总之,通过丰富的实验证明了 LLM 4 SD 在科学任务上的卓越表现和广阔前景,为后续研究奠定了基础。
推荐相关领域研究人员详细参考这篇文章,以期获得对该新方法更多的理解和启发。
文献来源:
https://arxiv.org/abs/2310.07984
https://doi.org/10.48550/arXiv.2310.07984
ArXiv 是一个免费的论文分发服务和开放获取服务平台
研究者已将 LLM 4 SD 开源。
https://github.com/zyzisastudyreallyhardguy/LLM4SD
研究使用的大语言模型:
Falcon 7 b 和 Falcon 40 b,由 Duascent 出品的两种通用域大语言模型。Duascent 是一家人工智能创业公司,总部位于阿联酋阿布扎比。该公司专注于构建新一代的基础语言模型,以推动阿拉伯语言的 AI 发展。
Duascent 是一家非常推崇“知识自由流通”理念的公司。他们不仅拥有顶级的模型训练技术,也在最大限度地回馈开源社区。Duascent 的工作增强了人们对中东地区 AI 实力的认识,代表了阿语国家加入世界 AI 舞台的重要力量。
什么是科学综合、科学推理和科学解释
假设我们想研制一种新药,用于治疗某种心血管疾病。研制新药需要深入理解疾病机理、药物目标和药效关系。仅凭一个科学家的能力是远远不够的,因为这需要整合分子生物学、生理学、有机化学等多个领域的专业知识。
这个时候,语言模型就可以发挥“科学综合”的作用。它通过读取海量学术论文,可以快速把不同领域已有的知识综合在一起,为科学家提供理论基础。
然后科学家需要设计实验,测试上百万种候选化合物,找出治疗该病的有效药物。语言模型可以通过“科学推理”,分析这些庞大的 screening 数据,找到一些规律,推导出什么样的分子结构和性质更可能对该疾病有疗效。
在多轮实验筛选后,科学家可能获得了一批候选药物。但还需要理解它们的药效机理——“科学解释”。这时语言模型可以总结实验数据,解析药物与目标的作用模式,使药效的理论基础更加清晰。
可以看出,语言模型强大的综合推理与解释能力,可以加速药物研发每个过程,提高成功率。如果运用自然语言接口,没有编程基础的科学家也可以便捷地使用这些“AI 助手”。这对促进创新药的产生,治疗更多疑难病症,将有重要意义。
研究方法、结果
作者在生理学、生物物理学、物理化学和量子力学 4 大领域选择了 58 个的预测基准任务来评价该方法。
-
1. 生理学领域:包含 BBBP、ClinTox、12 个 Tox 21 分类任务、27 个 SIDER 分类任务,总计 41 个分类任务。
-
2. 生物物理学领域:包含 BACE 和 HIV 两个分类任务。
-
3. 物理化学领域:包含 ESOL、FreeSolv 和 Lipophilicity 三个回归预测任务。
-
4. 量子力学领域:包含 QM 9 数据集中的 12 个预测分子属性的回归任务,具体是 Dipole Moment、Polarizability 等 12 个物理量。
这些任务既包含分类也包含回归,目标属性也涵盖药物动力学、毒性、活性等各个方面。例如,生理学任务中使用的 BBBP 数据集(blood-brain barrier permeability,“血脑屏障通透性”),是用于预测化合物是否能通过血脑屏障的。它可以用于指导脑病药物的设计。
在方法上,LLM 4 SD 通过语言模型先从科学文献中提取与特定任务相关的特征规则,然后结合数据分析推理出更多规则。这些规则再转化为模型输入,实现对任务的预测建模。此外,框架还可以生成文本形式的解释,解析模型判断的依据。
结果显示,这种流程不仅提高了性能水平,在多个领域的任务上均超过了专业的对比模型。在生理学和生物物理学的分类任务上,LLM 4 SD 分别将 AUC 指标提高了 2.8%和 2.0%,达到了最先进水平。在生理学分类中,整体的 AUC 指标达到 76.60%,显著优于之前最好水平的 74.43%。
在物理化学和量子力学的回归任务上,LLM 4 SD 分别降低了 18.5%和 48.2%的误差,也显示出显著改进。
为了深入分析各个组成部分的作用,作者还进行了 Ablation 研究(剔除研究),其核心思路是通过添加或移除某个部分来检查其对系统整体性能的影响。具体来说,研究人员分析了两大方面:
第一,比较了不同规模的语言模型骨干,包括小型的 Falcon 7 b 和大型的 Falcon 40 b。结果发现,通用域的 Falcon 系列模型需要极大的规模才能适应科学任务的需要;而专门在科学文献上预训练的 Galactica,即使体量较小也展现出色的科学建模与推理能力。
第二,对比了仅从文献综合知识、仅从数据推理知识以及两者结合使用三种情况。分析表明,文献知识为模型提供理论基础,数据知识能发现新的规律,两者融合协同效应最佳。这验证了 LLM 4 SD 设计的知识获取与利用流程的科学性。
通过 Ablation 研究,作者深入探索了影响因素的内在机制,为语言模型规模的选择和知识获取的路径提供了宝贵经验。这种研究范式也为后续建立更强、更智能的科研助手指明了方向。总体而言,Ablation 分析是该研究的重要补充,使框架优化设计站在更坚实的基础之上。
关于 Falcon 7 b 和 Falcon 40 b
Falcon 7 b 和 Falcon 40 b 是 duascent 出品的两种通用域大规模语言模型。
Falcon 系列模型最大的特点是模型规模越来越大。Falcon 7 b 相当于一个小型的语言模型,只有 70 亿参数,模型体积也比较小。而 Falcon 40 b 则拥有 4000 亿参数,是迄今为止公开的最大语言模型之一,体积也相应增大了近 60 倍。
通过本文的剔除研究分析发现,在科学建模任务上,小型的 Falcon 7 b 表现很差,无法处理。这主要是因为科学领域涉及专业知识量巨大,语言模型需要足够大的容量来编码这些信息。
而当模型规模增大到 4000 亿参数的 Falcon 40 b 时,即使还没有进行科学专项的优化训练,但巨大的模型容量也使其适应能力明显提高,可以解决科学建模问题了。
这验证了语言模型的关键能力之一“规模驱动的可扩展性”。随着模型越来越大,Falcon 系列也在不断进化升级,未来性能会更强。我们有理由相信类似 Falcon 40 b 这样的超大模型,在科研各领域都将大放异彩。