ChatGPT与生成式AI正在彻底改变科学界:一个具有双面性的难题
iMeta主页:http://www.imeta.science
社论
● 原文链接DOI: https://doi.org/10.1002/imt2.178
● 2024年2月27日,iMeta编辑部和湘湖实验室团队在iMeta在线联合发表了题为 “ChatGPT and generative AI are revolutionizing the scientific community: A Janus‐faced conundrum” 的文章。
● 本研究介绍了ChatGPT与生成式AI的高效使用方法和使用规范,为科学家们提供了先进的工具,用于处理大量数据、识别模式,并揭示可能被忽视的洞见。
● 第一作者:蒲中机、施春林
● 通讯作者:姚燕来([email protected])、刘永鑫([email protected])、贾保磊([email protected])
● 合作作者:Che Ok Jeon、傅静远、刘双江、蓝灿辉
● 主要单位:湘湖实验室(农业浙江省实验室)、ANGENOVO、韩国中央大学生命科学系、荷兰格罗宁根大学遗传学系、中国科学院微生物研究所微生物资源国家重点实验室、山东大学微生物技术国家重点实验室、武汉轻工大学生命科学与技术学院、热心肠研究院、中国农业科学院深圳农业基因组研究所
● 生成式人工智能赋能科学创新:生成式人工智能(AI),特别是ChatGPT等大语言模型(LLMs),在科学研究和学术出版中的应用日益增多,为科学界提供了前所未有的机遇。这些AI工具不仅能加速文献综述和文本分析,还能在药物发现、环境科学等领域预测复杂系统,从而推动科学创新;
● 生成式人工智能挑战科学诚信:生成式人工智能在推动科学创新的同时,也带来了准确性、伦理和责任的挑战,要求科学界审慎使用并建立相应的伦理框架;
● 生成式人工智能在iMeta出版物中的指导原则:iMeta编辑部提出指导方针,规定研究和学术出版中使用生成式AI应明确披露,确保内容准确公平,且需考虑伦理、版权等问题,保持人类监督。
自OpenAI在2022年11月推出聊天机器人ChatGPT以来,使用大语言模型(LLMs)的生成式人工智能(AI)在科学界的渗透日益加深。2023年2月的一项调查显示,80%的受访者使用AI聊天机器人。到2023年10月,约30%的博士后正在利用AI聊天机器人完成优化文本、生成或编辑代码、整理文献等任务。到2023年底,《自然》杂志评选ChatGPT为当年科学领域十大关键贡献者之一。在生物医学研究领域,生成式AI正在通过预测分子结构和生物相互作用,革新药物发现和开发。它在环境科学中也发挥着重要作用,模拟复杂的气候系统以帮助天气预测和评估气候变化影响。总体而言,像ChatGPT这样的生成式AI模型为科学家们提供了先进的工具,用于处理大量数据、识别模式,并揭示可能被忽视的洞见。
利用生成式人工智能:赋能科学创新
生成式人工智能技术的出现为科学界开辟了新的视野。生成式AI显著增强了科学研究的各个关键方面,尤其侧重于改善文献综述和文本分析。通过快速筛选和总结大量的科学文献,这些模型为研究人员提供了基础背景信息和新兴趋势,从而节省时间并丰富研究的深度和广度。生成式AI在提高科学写作的质量和效率方面的贡献也值得注意。利用自然语言处理,它们帮助科学家和编辑进行文稿撰写、校对和格式设置,对于非母语为英语的人士来说,在撰写精确的学术英语方面特别有益。这些工具能有效地组织和格式化复杂的数据和理论,使科学交流更加准确和有效。
ChatGPT和生成式AI通过协助洞察分析和评估,正在革命性地改变科学研究。这些AI系统擅长分析大型数据集,揭示可能被人类忽视的复杂相关性、模式和异常。这在基因组学、流行病学和气候科学等涉及大规模数据分析的领域尤其有益。
生成式AI可以根据用户描述创建代码实例,将自然语言转换为多种编程语言中的功能性代码。这对初学者或使用不熟悉语言的人尤其有益。此外,这些AI系统在识别和纠正代码错误方面表现出色,能迅速定位语法和逻辑问题,并提供解释,从而加速调试过程并为开发人员提供教育资源。此外,生成式AI可以提高代码效率和可维护性,建议重构以提高可读性和性能,符合软件开发最佳实践。
生成式AI通过提供建议、类比和来自各个学科的例子,增强了跨学科合作和头脑风暴。这种方法扩大了想法的范围,鼓励超越传统界限的思考,并促进创造性问题解决,这在依赖创新的领域至关重要。通过提供多样化的视角和意想不到的联系,生成式AI可以挑战常规思维并鼓励创造性问题解决。
ChatGPT和类似的AI技术显著改善了科学家与公众的沟通方式,增强了科学知识的传播和理解。它们将复杂的科学内容简化为更易接近的语言,克服了公众理解科学内容的障碍。相应地,可以为iMeta期刊设计一个AI虚拟人物,负责总结、压缩和展示文章,从而增强传播和外展。AI甚至可以分析文章,代替作者与读者互动。这使科学神秘化,变得更加平易近人。此外,在语言翻译方面,AI在弥合科学交流的语言差距中发挥着关键作用,确保全球可访问性,并促进包容性的科学对话。
最大化效率:使用生成式人工智能的技巧
提示词工程是优化生成式人工智能交互的关键技术(图1A)。这一过程不仅仅是指导AI完成当前任务,还包括制定请求以最大化输出效率和质量。有效的提示词工程包括选择相关关键词、提供足够的背景信息以及清晰定义目标和期望。此外,根据AI模型的特定能力和限制量身定制提示对于提高性能至关重要。在此,我们提供了一个简明指南,讲解如何利用提示词工程提升生成式人工智能的效率。
角色扮演在提示词工程中担当了一个独特而重要的角色。它涉及用户通过模仿各种角色或情景来制定提示,从而引出更具想象力和上下文详细的AI响应。例如,用户可能提示AI扮演生物化学家、微生物学家或生物信息学家的角色,或者在特定的叙述或背景下提出询问。提示的特定性和对某些问题或技术的关注提高了它们在角色扮演场景中的有效性(图1Aa)。这一策略的本质在于引导AI超越标准的、直接的答案,促进更深入和更细腻的参与。
在提示词中,指令的清晰度对于从生成式人工智能中引出特定的、相关的、高质量的输出至关重要。明确定义的提示词减少了模糊性,提高了AI响应的效率和准确性。有效策略包括具体性、相关的背景信息、清晰的参数、直白的语言和逻辑的指令结构,以防止误解。在微生物学和基因组学的例子中(图1Ab),从一般到高度具体的提示有一个明显的过渡。这一转变突出了详细指令如何提高清晰度和指导性,帮助生成式人工智能进行更专注和全面的研究。这种方法论不仅使研究过程更加流畅,还优化了用户体验并节省资源,使AI交互更加高效和有益。
引入参考文本对于优化生成式人工智能至关重要,尤其是对于复杂或专业的主题。这种方法丰富了AI的上下文理解,导致更精确和相关的输出。参考材料还指导AI模仿特定的语调和风格,这对于保持与既定写作规范或技术术语的一致性至关重要。例如,在总结关于鸡肠道微生物组的研究时,使用来自iMeta的一项研究作为参考(10.1002/imt2.105)显著提高了内容质量。一个精确的指令可能是:“使用附加的论文,写一个关于鸡肠道微生物组的详细的500字概述。”这样的指令确保AI利用特定的宏基因组学背景,产出一个信息丰富且准确的总结(图1Ac)。
将外部工具与生成式人工智能结合起来对于增强AI生成的输出和扩展其能力至关重要。如数据分析和可视化软件等工具补充了AI的固有功能,使输出更加丰富和复杂。这对于复杂任务或大型数据集尤其有益,因为这些工具可以处理和解释超出AI单独能力范围的数据。这种协同作用不仅扩大了与AI可达成的成果范围,也提高了成果的精确性和效率。例如,在评估新药对血压的影响时,可以分析用药前后的患者数据。使用Python的SciPy进行配对t检验以确定血压变化的统计学重要性。随后,AI在特定提示的辅助下,可以与Python一起用来得出关于药物对血压影响的明确结论(图1Ad)。
在AI驱动的研究中,两个基本原则是“系统地测试变化”和“给模型足够的处理时间”。系统地改变参数和记录结果是识别最佳模型配置的关键。这个过程需要对AI设置进行反复的微调和仔细的结果比较,以实现最佳性能。例如,在组学研究中,为线性回归和逻辑回归设计不同的提示词指导人工智能进行精确的统计分析(图1Ae)。相反,分配足够的处理时间对于复杂任务至关重要,使AI能充分处理大型数据集或进行详细分析,从而确保更准确和深思熟虑的结果。特定的提示表明延长处理时间(图1Af),如“允许额外处理时间”或“分配更多时间进行深入处理”,指示AI进行彻底的检查和分析。这种方法提高了包括研究分析、数据解释和复杂问题解决在内的各种复杂任务的输出深度和质量。
图1. 科学研究中生成式人工智能的策略概览及其影响
滥用生成式人工智能:对科学诚信的风险
尽管生成式AI为科学界带来了显著优势,其使用也存在潜在弊端,这些弊端不仅涉及研究的质量和可靠性,还包括伦理和责任问题。科学家和编辑的审慎使用是缓解这些问题的关键。
一个主要的担忧是AI生成数据的准确性和可靠性。一项调查显示,66%的科学家对潜在的错误或不准确性渗入他们的研究论文表示担忧。基于现有数据集训练的AI模型可能会传播过时、有偏见或不完整的信息,影响输出的相关性和准确性。为了保持商业优势,大多数生成式AI模型的架构、训练数据和规模未向公众披露。当使用数据分析插件时,输入数据可以产生分析结果。然而,缺乏适当的数据分析方法论的研究人员可能难以辨别这些方法的正确性,并确定分析过程中是否发生了错误。
科学家必须严格评估AI生成内容与权威来源的一致性,这一过程对于维持复杂科学背景中的准确性至关重要。生成式AI应作为增强研究的辅助工具,而不是取代人类专业知识。尽管它对初步数据处理、创意生成或草稿创建有益,但最终输出的准确性和完整性的最终责任仍然在人类专家。
ChatGPT和其他生成式AI模型中的数据偏见,特别在科学研究领域,构成了一个显著的挑战。这些AI系统基于其训练数据集开发文本生成和解释能力。固有的偏见数据,如刻板印象、偏见或偏颇的表示,可能导致AI在其输出中传播这些偏见。例如,如果训练数据一致地将某些概念或群体联系起来,模型可能会强化这些偏见,从而加深现有的偏见。科学家必须批判性地评估生成式AI的输出,特别是当它们影响研究发现或数据解释时。这需要警惕潜在的偏见并与公正的数据源进行交叉验证。因此,提高对这一倾向的认识对于促进科研中对AI的更加谨慎和明智的使用至关重要。
在科学研究和出版中使用生成式AI时,维护学术原创性的挑战至关重要。尽管AI在处理和综合信息方面表现出色,但其生成新见解或进行独立研究的能力可能受到其训练数据范围的限制,尽管它越来越擅长于识别复杂数据集中未见的模式。这引发了关于原创性和抄袭的担忧,有68%的研究人员在一项调查中表示,AI可能简化抄袭并使其检测复杂化。尽管正在开发AI生成内容探测器以区分AI和人类学术写作,但在AI使用中培养学术道德文化对于确保适当的研究行为至关重要。AI应作为研究过程中的补充工具,协助草稿撰写、文献综述和创意产生。然而,核心见解和创新贡献必须来源于研究人员。AI输出需要经过批判性审查和调整,确保最终作品展示研究人员的独特见解,并显著修改任何AI生成的内容。
由于其对学术界和社会的转型性影响,生成式AI的使用引发了关键的伦理和责任问题。在科学写作和研究中,随着AI贡献的增加,归属作者权变得复杂。虽然AI不能在研究论文中被记为共同作者,但应透明地承认它们的角色,如在致谢部分,以保持作者权的完整性。当数据频繁检索或上传到ChatGPT时,尤其是当涉及的数据敏感或机密时,会出现重大的隐私和安全问题。这种情况增加了未经授权的第三方访问和数据盗窃的风险。此外,对可能包含个人或敏感信息的数据集进行生成式AI的训练加剧了这些隐私问题,提出了保护此类数据免受潜在泄露的额外挑战。不准确或不可靠的AI输出也存在误信息传播的风险。因此,科学界必须建立并遵循使用生成式AI进行研究的伦理准则和框架。这些应该解决数据使用、偏见、透明度和问责问题。
过度依赖ChatGPT可能会削弱研究人员,尤其是在教育和培训中的独立思考和创新能力。AI工具提供快速获取信息的途径,可能无意中鼓励用户不加批判地接受AI生成的解决方案。这种依赖可能会随时间减弱个人的解决问题能力和批判性思维。为此,研究者和学生应学会仔细检查并质疑AI提供的信息,将AI视为辅助工具而非权威来源。在教育环境中,AI应补充而非替代传统学习方法,确保平衡整合。本质上,虽然AI是探索各种解决方案的有价值工具,研究人员和学习者也必须培养并信任他们自己的解决问题技能。
滥用生成式AI带来了多种额外的风险,包括潜在的制造恶意软件、网络钓鱼和欺诈,这需要强大的监管框架来防止滥用。提高用户教育和公众对这些风险的意识,以及与政府和法律实体的合作,对于制定遏制非法AI使用的策略至关重要。此外,AI训练和操作的高能耗引发了环境担忧。解决这一问题需要开发更高效的算法,利用可再生能源为计算中心供能,并提高对AI环境足迹的认识,以鼓励可持续实践。此外,AI对就业的影响,特别是在减少人类劳动需求方面,要求关注人机合作。支持劳动力转型和持续教育对于适应技术进步至关重要。还需要进行跨学科研究,以全面了解AI对劳动市场的影响并提出政策建议。
指导原则:在iMeta出版物中为作者和审稿人实施生成式人工智能
鉴于我们编辑部的讨论和其他期刊的见解,我们提出了一套指导方针,以在研究和学术出版中整合生成式人工智能。首先,包括语言模型和聊天机器人在内的AI辅助技术,不能被认定为作者。在研究或手稿准备中使用此类AI必须透明地披露。提交材料中需要详细说明所使用的AI工具,包括具体的提示和版本。研究人员必须解决伦理问题,并确保AI生成内容的准确性和公平性,作者对其工作的完整性负责。因不当使用AI而导致手稿被拒的风险,以及禁止在审稿过程中使用AI。通常情况下,除非特别允许,否则不接受AI生成的图像和多媒体内容。处理个人数据时必须遵守数据保护和隐私法律。此外,必须考虑AI生成内容的版权和知识产权问题。在重要的科学决策中,应始终保持人类的监督。最后,鉴于AI的快速发展,我们对AI创造的多媒体内容的立场可能会根据版权法律和行业伦理标准的变化而调整。
罗马双面神祇扬努斯,象征转变和开始,恰当地代表了带有大语言模型的生成式AI的双重性。随着2023年成为这些模型在技术、商业和社会中广泛应用的一年,它们既带来了益处也带来了挑战。科学家和编辑必须认识到这些风险,并采取措施应对。科学界可以引入旨在减轻因用户专业知识水平不同而产生风险的标准化操作指南。此举旨在促进研究成果的一致性和可靠性。此外,可以推出一个AI使用的监管系统插件,该系统将持续监控研究人员的AI互动。该系统旨在确保遵循最佳实践,并在研究活动结束时生成一份全面的监督报告。有效降低风险需要做出明智判断并保持科研诚信。研究人员应将自己的专业知识与AI输出相结合,而不是完全依赖AI。此外,在处理敏感数据时,严格遵守数据保护和隐私法律。结合AI使用和独立思考技能发展的平衡方法,使研究人员能够利用这些工具,同时保持科学研究的质量和创新。
注:本文中描述的观点基于作者对ChatGPT和生成式人工智能当前阶段的理解。我们的观点可能会根据ChatGPT和生成式AI在未来的发展而改变。
AI声明
使用ChatGPT 4.0进行语法校正,并使用ChatGPT图像生成器绘图。
引文格式:
Zhongji Pu, Chun‐Lin Shi, Che Ok Jeon, Jingyuan Fu, Shuang‐Jiang Liu, Canhui Lan, Yanlai Yao, Yong‐Xin Liu and Baolei Jia. 2024. ChatGPT and generative AI are revolutionizing the scientific community: A Janus-faced conundrum. iMeta e178. https://doi.org/10.1002/imt2.178
蒲中机(第一作者)
● 大连理工大学博士,现为湘湖实验室副研究员。
● 目前研究方向为计算生物学,相关学术成果已发表于Angew. Chem. Int. Ed.、JACS等期刊。
施春林(第一作者)
● 博士,本科毕业于苏州大学,硕士毕业于韩国国立庆尚大学,博士毕业于挪威奥斯陆大学,师从Reidunn Aalen院士。
● 主要研究领域:小肽信号传导,器官脱落及细胞分离相关的分子调控等。在Nature Plants、iMeta、Molecular Plant、Plant Cell、TIPS、PP、PJ、JXB等国际知名期刊上发表30多篇研究论文、综述、社论及评论。现为iMeta科学编辑,Molecular Plant feature editor,ANGENOVO研发科学家,以及多所高校的科研顾问。
姚燕来(通讯作者)
● 博士,研究员,现为湘湖实验室科研发展部部长。
● 主持或参加各类项目40多项,其中主持国家自然科学基金青年基金、公益性(农业)行业科研专项任务、国家重点研发计划子课题和省重点研发计划等国家及省部级重点项目6项,地方项目14项;已在Bioresource Technology、Ecotoxicology、Journal of Hazardous Materials等期刊发表中英文论文40篇,获得授权国家发明专利19件,美国专利1件,浙江省科学技术进步三等奖1项。
刘永鑫(通讯作者)
● 中国农科院深圳基因组所研究员,iMeta期刊执行主编,宏基因组公众号创始人。
● 主要研究方向为微生物组方法开发、功能挖掘和科学传播,在Science、iMeta、Nature Biotechnology、Nature Microbiology等期刊发表论文50余篇,被引16000+次,入选全球Top 2%高被引科学家。主编《微生物组实验手册》专著,由300多位同行参与,共同打造本领域长期更新的中文百科全书。创办宏基因组公众号,16万+同行关注,累计阅读量超4千万,打造本领域最具影响的科学传播平台。为Nature Communications、Microbiome、ISME、NAR等68种期刊审稿190次。2022年联合发起iMeta期刊(ESCI收录),打造微生物组/生物信息领域国际顶刊,解决我国本领域期刊出版卡脖子问题,建立国际学术话语权体系,2024年6月即将获得本刊首个影响因子,预计IF~20。
贾保磊(通讯作者)
● 博士,湘湖实验室研究员。
● 研究领域为生物大数据以及微生物学。以通讯作者和第一作者在Gut Microbes,Journal of Infection,Trends in Microbiology,Trends in Biotechnology,Journal Cleaner Production,Plant Biotechnology Journal,Travel等Top期刊发表论文多篇论文40余篇。任iMeta执行副主编
(▼ 点击跳转)
高引文章 ▸▸▸▸
iMeta | 引用7000+,海普洛斯陈实富发布新版fastp,更快更好地处理FASTQ数据
高引文章 ▸▸▸▸
iMeta | 德国国家肿瘤中心顾祖光发表复杂热图(ComplexHeatmap)可视化方法
高引文章▸▸▸▸
iMeta | 高颜值绘图网站imageGP+视频教程合集
1卷1期
1卷2期
1卷3期
1卷4期
2卷1期
2卷2期
2卷3期
2卷4期
“iMeta” 是由威立、肠菌分会和本领域数百位华人科学家合作出版的开放获取期刊,主编由中科院微生物所刘双江研究员和荷兰格罗宁根大学傅静远教授担任。目的是发表原创研究、方法和综述以促进宏基因组学、微生物组和生物信息学发展。目标是发表前10%(IF > 15)的高影响力论文。期刊特色包括视频投稿、可重复分析、图片打磨、青年编委、50万用户的社交媒体宣传等。2022年2月正式创刊发行!目前期刊已经被ESCI、Scopus等数据库收录。
联系我们
iMeta主页:http://www.imeta.science
出版社:https://onlinelibrary.wiley.com/journal/2770596x
投稿:https://mc.manuscriptcentral.com/imeta
邮箱:[email protected]