图片来源:Unsplash
作者 TERESA KUBACKAFEB
翻译 杨梦
编辑 魏潇
*Teresa Kubacka 是苏黎世联邦理工学院(ETH Zurich)知识管理团队的高级数据科学家,她领导着一个名为“走向开放计量指标”(Towards Open Bibliometric Indicators)的项目。本文反映了她的个人经验和观点。文章中描述的所有测试均是在 2023 年 10 月进行的,当时,Scopus AI 处于 Beta 公测版本。
2022 年夏天,Scopus 宣布推出新工具 Scopus AI,与他们的文献计量数据库整合在一起。引用相关文件的说法,“Scopus AI 是一款由人工智能驱动的研究工具,利用 Scopus 的同行评审研究资料库来帮助用户理解和定位陌生的学术内容”。该工具由一个与聊天机器人对话的界面组成,它接受自然语言提示词,并能够提供一些引用自 Scopus 数据库的长句回答。用户可以输入后续问题或从列表中选择推荐问题。此外,该工具还可以创建关键词的可视化视图,这项功能在撰写本文时尚未完全推出。
Scopus AI 在后台是如何工作的?从官方文档中,我们可以推断出,Scopus AI 遵循的是检索增强生成(RAG)架构,由两个机器学习(ML)组件组成。一个组件检索在 2018 年到 2023 年之间发表的相关文献,并在 Scopus 中进行索引。它与默认的 Scopus 搜索不同:它被用来将用户的输入与可用摘要中所包含的单个句子进行匹配。其他的文章元数据也会被用来对结果进行排序。一旦识别出一些最匹配的摘要,另一个ML组件——可能来自 GPT 家族的生成式大型语言模型(LLM)——会将它们重新表述为原始问题的答案。
Scopus 并不是第一家以信息检索和科研文献导航为目的开发聊天机器人的公司。由于它们建立在各种学术元数据库的基础上,因此这些以科研为导向的聊天机器人有望比通用型同类更值得信赖,也更加透明和可靠。
2023 年 10 月,我所在的机构获得了 Scopus AI Beta 版本的访问权限。我使用与我的物理学博士论文相关的一个概念“电磁子”(electromagnon)对其进行了测试。在本文中,我想分享我的经验,并用它来说明设计和评估此类工具所需要考虑的多个维度。
Scopus AI 的复杂性
我用 Scopus AI 运行了几次单独的会话。每次会话我都从关于电磁学的一般问题开始,然后使用它推荐的后续问题进行深入探讨。我使用了标准的 Scopus 检索界面对 Scopus AI 给出的回答进行交叉检验。
在第一个问题“什么是电磁子”中,就出现了一个意外。Scopus AI 回答道:“在 Scopus 提供的所有摘要里都没有直接提到电磁子。因此,无法提供直接回答该问题的摘要。”我使用标准的 Scopus 检索对结果进行了交叉检验。该检索——“标题-摘要-关键词(电磁子*) AND 出版年 > 2017 AND 出版年 < 2024”——得到了 78 篇文献的结果。Scopus AI 并未对其给出的回答作出解释。
出现的第二个意外是 Scopus AI 所提出的 3 个后续推荐问题,尽管它没能找到关于该主题的任何摘要(图1)。其中一个是:“在凝聚态物理领域,电磁子与磁子之间的关系是什么”,我选择将其作为我的下一个问题。
图 1
虽然没有找到与初始问题有关的参考文献,但这次 Scopus AI 不仅提供了详细的答案,甚至还用了两个引文来佐证这个回答(图2)。不幸的是,这个回答从各个层面来说都是错的:检索到的参考文献没有提及电磁子;Scopus AI 用一个与之不相关的不同概念替换了另一个概念;许多句子几乎是直接“抄袭”了摘要。Scopus AI 甚至明确写道,没有给出关于电磁子和磁子之间关系的线索的摘要,然而标准版的 Scopus 检索列出了 2 篇摘要,其中包含着事实性的、简明的一句话定义(图2)。
图 2
类似地,对于另一个问题:“电磁子在设备中的应用”,Scopus AI 没有找到任何参考文献并拒绝作答(我使用检索式“标题-摘要-关键词(电磁子*)AND 标题-摘要-关键词(设备*)AND 出版年 > 2017 AND 出版年 < 2024”进行交叉检验,返回了15篇文献)。然而,我收到了一个在语义上几乎与初始问题相同的后续问题:“电磁子在先进磁存储设备的开发中有什么作用?”,Scopus AI 回答了。它的答案和之前的存在相同的问题(图3)。另外,这次的文本甚至在逻辑上都是不连贯的,因为“论据”并没有支持“结论”。
图 3
我用了几个其他关于电磁子的问题来测试 Scopus AI,得到的答案都差不多:虽然这些错误并非 Scopus AI 独有,但它的 RAG 架构似乎确实不够出色,因为我甚至连一个正确的答案都没有得到。不过考虑到 Scopus AI 仍处于 Beta 公测阶段,因此其最终表现可能会更好一些。
有趣的是,由于 Scopus AI 出现的这些类型的错误,另一重复杂性浮出了水面。这种复杂性并不仅仅来自技术性问题,而是应该由所有对透明度和可靠性有追求的科研聊天机器人来解决。
穿越谎言,筛选答案
复杂性的第一个方面是用户需要对聊天机器人的回答进行审查,这些答案本应是对用户的明确回应,但它却没有做到。
在我的测试里,每个单词都需要仔细检查。比如,有时 Scopus AI 会从摘要中复制整个句子,但会用其他的科学术语替换掉句中最重要的核心术语,使得这句话的意思被完全改变[例如,将“电磁子”写成“高铁试剂”(ferron)或“超导自旋电子学”(superconducting spintronics)]。这与那些关于对话机器人会将虚假信息与其他正确文本穿插在一起的说法是一致的。在 Scopus AI 中,识别这些情况是一项困难的任务:被复制和被重新表述的词语都没有提示,我们也不清楚对话机器人对特定的主张有多自信。即使把参考文献标注在旁边,逐字检查每个单词也是非常耗时的,而且还需要一种很难维持的高度谨慎。
第二,信息检索组件同样很重要,甚至比文本生成组件更重要。可惜的是,该工具提供不了任何有助于用户理解它选择或不选择某些参考文献的原因的信息(即使采取简单的措施也会很有用,例如,突出显示相关短语或显示相似度分数),它也没能解释关键字检索的结果为何有如此大的差异。此外,假设Scopus AI 为给定提示语检索到了 100 篇相关摘要,我们没法知道排在前三位的内容是怎么得出来的:是使用了字段归一化的引用度指标吗?还是根据作者、期刊或出版商的名称和归属关系对结果进行了筛选?因此,我们对结果中可能会出现的系统性偏见一无所知。用户也永远不会知道,除了前3篇摘要之外,Scopus AI 还找到了哪些其他的摘要。由于这种复杂性潜藏在用户界面之下,在说明文档中也没有得到充分的阐述,所以用户永远无法知道这个工具会不会只是从所有相关结果中挑选出了片面的内容。
在我的测试中,最坏的情况下,上述两个问题会同时出现:Scopus AI 给出的参考文献都与我的问题无关,但它会让它们看起来是有关的。它会在一个句子的上下文里引用这些毫无根据的参考文献,或者干脆篡改文本,让参考文献变得“相关”。
Scopus 对偶然的“不一致……不正确或有潜在的误导性信息”给出了免责声明。然而,尤其是当用户界面中没有标明关键信息的情况下,认为仅凭人类的谨慎心理就可以捕捉到所有这种错误是不现实的。此外,Scopus AI 的定位是一款能够协助用户进行“陌生学术内容指引”的工具,其目标用户群是“跨学科工作的初级学者和研究人员”。一个门外汉如何才能在不是该领域专家的前提下发现这些错误呢?
即使是这些对话式 AI 的开发者也会陷入这种陷阱。谷歌 Bard 模型的官方演示中就出现了关于 JWST 望远镜的错误信息。而讽刺的是,Scopus AI 似乎也遇到了类似的问题。其宣传视频中只有一个引用与摘要并列的示例,似乎还是错的:一篇调查地震引起的建筑物损坏的出版物被引用为论据,以证明地震学研究可以提供对地壳动力学的见解,尽管这是两个不同的领域。如果连开发者们都忽略了这些情况,那意味着这些工具的架构无法很好地支持用户完成对事实依据的检索。一个可用的、可靠的 AI 研究助手应该在其用户交互界面中呈现更多样化的信息,而不仅仅是带有参考文献的纯文本。
需要证明
复杂性的第二个方面是该工具实证性能的透明度。
AI 是一种基于数据交互的统计方法,我们可能永远无法使其拥有像关键词检索算法那样的确定性。但这本身并不是问题:概率工具依然是能够发挥作用的。事实上,我们很少会将物理设备视为完全不出错或完全确定的。与此正相反,我们可以假设AI会发生故障,并使用可靠性工程的方法来估测故障出现的概率。因此,即使AI工具本身是个黑箱,也能够以标准化、透明的方式衡量其可靠性。
对于 AI,从简单的性能指标到更复杂的框架,如模型卡或数据表,我们有很多这样的框架可供使用。特别是对于使用了 LLM 架构的聊天机器人,开发者社区一直在尝试用各种方式为用户提供它们的可靠性证明。例如:OpenAI 为 GPT-4 发布了一篇长达 60 页的系统卡;Scite Assistant 公开了用于对话式 AI 响应控制的查询语句,并允许用户通过调整它们来进行搜索;CoreGPT 的开发人员将他们的对话式 AI 的引用相关性加以量化,包括其指标的置信度测量标准。也可以量化表现 AI 出现幻觉的程度和性质。
至于 Scopus AI,它在文档和营销材料中所强调的可靠性和透明度,可能主要是因为其以著名文献计量数据库的摘要为基础(“明确的参考文献——完全透明”“通过推荐的后续问题和原文摘要的直达链接,研究人员可以放心,Scopus AI 给出的结果经过了高度审查和筛选,是可靠的”“我们先进的工程技术限制了 AI 出现‘幻觉’的风险——或虚假的 AI 生成内容——并从世界上最大的科学文献数据库中挖掘出值得信赖和经过验证的知识”)。这当然比通用领域的 AI 要好得多。但上述例子表明,它还有很大的发展空间。
爱思唯尔“负责任的人工智能原则”宣称“透明性创造可信度”,他们通过在“程序、广泛审查和记录文档”方面采取措施,将算法偏见的不公平最小化,并且他们的技术能够使人类“对人工智能系统的开发、使用和结果拥有所有权并负有责任感”。这些原则设计得很好,但到目前为止,他们的声明与事实之间存在着明显的差距。虽然 Scopus AI 的文档中包含了对其架构“高屋建瓴”式的概述,但它既没有系统卡,也没有一个能够量化其实际性能的指标。在缺乏这些的情况下,用户只能通过营销声明和反复试错来建立对它的信任。如果用户对偏见和错误的频率和性质了解甚少,那么期望他们完全发挥出 Scopus AI 的使用价值是不现实的。
数据偏倚和不公平的放大器
复杂性的第三个方面是,人工智能的表现取决于基础数据的质量。
在我的测试中,后续问题的内容表明,对话式 AI 在电磁子和凝聚态物理学、相关波长、磁性等术语之间看到了一些语义联系。这种关于科学的潜在认知,即使在没有检索到摘要情况下也存在,这很可能是从文本生成组件里使用的 LLM 中继承的特征。这种 LLM 是使用大型数据集进行训练的,这些数据集既包括开放获取的科学出版物语料库,也有由学科领域专家创建的定制训练数据库,所以,即使是通用型 LLM 也会学习到一些科学概念。但是,如果专业术语在训练数据中很少出现,那么LLM 最终可能会将其视为同义词,或者根本不学习它们。这可以解释为什么在我对 Scopus AI 的测试中,它混淆了模糊相关的科学术语。在大部分出版物都在付费墙后或不可由机器读取的领域中,这个问题可能会更加严重。作为用户,我希望事先了解到这些可能发生的状况,这样我就可以调整我的搜索策略和对结果的解释。这是 AI 助手开发者需要披露底层 LLM 并认真调查其原始训练数据的另一个原因。
不仅 Scopus AI LLM 的训练数据是对真实世界的不完整反映,用来支撑其结果的文献计量数据也是如此。在这一现状下,我认为 Scopus AI 称其基于“人类积累的知识”的营销伎俩令人不安。这暗指 Scopus 数据库完全包含了所有科学知识的精华,尽管它远非最大的文献计量数据库(更不用说在这样的数据库中,还有许多领域的知识没有得到充分地体现)。为了快速作出比较,我在多个数据库中检索了发表于 2018~2023 年间、包含“电磁子”一词的出版物,在 Scopus 和 Web of Science 中各自检索到 78 篇文章,而在 Dimensions 里查到了 110 篇,OpenAlex 150 篇,CORE 186 篇——比 Scopus 多得多。我们应当记住,Scopus 只包含对人类知识高度筛选后的速览,有大量的偏见和遗漏。虽然数据库的标准检索模式至少可以显示匹配条目的总数以代表其覆盖范围,但 Scopus AI 只显示少量匹配的参考文献,并隐藏其余内容,放大了可用性偏差。
而且,如果 AI 的表现取决于基础数据,我们不应忘记那些拥有学术数据的机构并对他们的访问行为进行监管。长期以来,大型学术出版商一直将内容作为可利用的资本。AI 工具放大了现有的对学术文本访问的不平衡:如果出版商拥有一个文本的独家版权,他们就可以利用这些文本来训练他们的AI工具,并且不让竞争对手的AI项目使用这些内容,从而再次从版权中获利。目前,大多数AI研究助手都是以摘要为基础的,但文献的真正价值在全文中,而访问全文仍然是件非常困难的事。
爱思唯尔对其内容采取了特别保护措施,并且严格限制文本挖掘。不仅是全文,要想复用摘要都很难:它不支持开放摘要倡议,而在爱思唯尔上发表并被 Crossref 收录的 280 万项内容中,实际上没有任何一条附带了摘要。Scopus 可以利用其对爱思唯尔摘要的特许开放,来提高 Scopus AI 的市场地位。如果Scopus AI 潜在的竞争对手想让他们的对话式 AI 掌握这些科学发现,就必须与爱思唯尔达成单独的协议,或者投入大量精力从其他来源中抓取和组装摘要。从其他对话 AI 的用户的角度来看,如果 AI 无法获取一篇文献的摘要或全文,那么这篇文章就等于从来没出现过。
原文链接:
https://scholarlykitchen.sspnet.org/2024/02/21/guest-post-there-is-more-to-reliable-chatbots-than-providing-scientific-references-the-case-of-scopusai/
本文来自微信公众号“科研圈”。如需转载,请在“科研圈”后台回复“转载”,或通过公众号菜单与我们取得联系。相关内容禁止用于营销宣传。
▽ 精彩回顾 ▽