商业洞察

【AI垃圾】AI垃圾充斥论文库?科研人员称AI痕迹难以发现、部分领域有AI造假的可能

查看信息来源】   1-22 14:20:47  

  生成式AI在学术领域正在加快科学发现,甚至因此登上了诺贝尔奖台,但技术的另一面是,学术做假越来越方便,学术界近期开始担忧,AI垃圾或许会充溢论文库。

  瑞典布罗斯大学学院近期发布了一篇文章,称科研人员在谷歌学术平台中发现了上百篇疑似由AI生成的文章,科研人员认为,由AI生成的“垃圾科学”正在侵蚀学术平台,给同行评审系统造成压力,也对科研人员的信息素养提出更高要求。

  第壹财经记者留意到,近一年来,学术界出现了很多被疑问使用AI生成的论文,甚至被撤稿,也出现了使用AI技术“润色”论文被认为是学术不端的事情。

  记者梳理发现,目前可以将AI可能引发的学术垃圾分成两类,一是用AI翻译或生成部分文字表达,二是利用生成式AI学术做假,前者AI主要起到辅助写作的作用,但可能因为论文作者不仔细检查生成的内容造成论文犯错,后者的主要问题在于AI使学术做假变得更便利。

  “我还没有发现大量明显由AI生成的论文,如果作者将AI的痕迹删除干净就难以发现。但理论上AI的确能用于辅助论文写作,也出现了被怀疑使用了AI生成的论文。”一名高校科研工作者对记者表示。记者采访的多名在读博士或科研工作者认为,他们还没有发现AI造成学术垃圾充溢论文库,但AI已经能用于做一些学术辅助工作,在不同研究领域使用AI学术做假的存在性则有所不同。

  AI垃圾充溢论文库了么?

  担忧AI垃圾充溢论文库的不只瑞典布罗斯大学学院科研人员。

  去年9月,莫那什大学科研人员Julian Koplin发表在The Conversation上的一篇文章称,随着类似ChatGPT的生成式AI工具出现,越来越多论文疑似使用了AI辅助写作,一些论文出现了AI我们时常使用的表达,例如commendable(值得赞美)、meticulously(战战兢兢)。

  还有一篇关于农业技术的论文出现了明显使用AI工具的表述:“作为AI语言模型,我无法直接访问当前的研究文章或研究。可是,我可以为您提供一些最新趋势和进展的概述……”。Julian Koplin表示,AI存在幻觉问题,有时会犯严峻的错误,而论文作者需要确保学术论文没有严重错误。

  去年5月,也有消息称,一篇未经同行评议的预印本论文估计,通过分析写作风格,有上万篇论文可能被AI以某种方式润色了,一些论文留下了使用AI的迹象,例如出现了以“作为 人工智能 模型语言模型”开头的句子,有科研人员认为,滥用AI工具可能会损害公众对科学研究的信任。

  学术论文出现AI常见表达还发酵成一些舆论事件。早在2023年,就有一篇发表在《Physica Scripta》期刊上的论文被发现使用了AI惯用的短语,随后该论文被撤稿。去年,有论文出现一句疑似ChatGPT惯用回答“Certainly, here is a possible introduction for your topic:” (当然,这里有一个关于你的主题的可参考介绍:),也被疑问用了AI写论文,引起了学界和媒体的注意。

  由于目前学术界已经有许多存在AI痕迹的论文出现,流传学在读博士李庭对第壹财经表示,某种意义上,AI生成的学术垃圾是存在的,例如加剧了模式化的表达,造成不存在的事实与论据污染数据库。

  不过,需要谨防的是,瑞典布罗斯大学科研人员强调,出现了AI垃圾的谷歌学术平台其实其实不等于于专业学术数据库,该平台缺少必要的质量保证流程。

  记者采访的一些学术界人士认为,不使用谷歌学术平台而使用专业学术数据库,可以有效筛掉低质量论文和“AI垃圾”。不过,用AI润色或翻译论文变得较为普遍,使用AI或也难以发现其痕迹。

  一名新闻学在读博士生对记者表示,她平时搜集中文文献主要使用知网,限定搜索范围为CSSCI,搜集英文文献主要使用web of science,限定搜索范围为SSCI,这样搜索到的仅有国内外相对较认可的期刊文献,她并未发现学术论文库出现被AI污染的情景。

  中科院生物学博士、科研工作者刘耀文则担忧,还是会有一些研究者使用AI写论文,并且AI痕迹可能难以发现。他去年就留意到一篇学术论文带有AI生成痕迹,“可能是AI生成,审稿人还没发现。这个事件曝出后,后续使用AI写论文的人就会更注意删掉AI痕迹了。”

  用AI写论文背后,可能是作者用AI翻译或润色已经写好的论文,也有可能存在是使用AI辅助后直接采用AI生成内容。就用AI翻译论文的切实需求,刘耀文表示,国内研究者在海外期刊发表论文我们时常会面临语言问题,通常会寻求翻译软件的帮助,但根据经验,AI的效果比翻译软件、人工翻译的效果更好。目前已经有许多人采用这种方式润色论文。问题在于,AI可能生成有歧义的表达,翻译后作者需要纠正一遍,假如不更改可能造成论文出现垃圾信息。

  至于直接使用AI写作论文,一些受访者认为,AI生成的内容表达能力尚可,但思辨性不足。上述新闻学在读博士表示,用Kimi生成的文本应付本科课程论文还行,写其它论文不太行。从生成文本质量看,AI生成的内容逻辑和表达基本可以,但思辨性不够,缺乏深度,缺少让人眼前一亮的东西。刘耀文则注意到,用AI生成论文中的文字,看起来具备十分的专业性,AI生成的文字的确缺少思辨性,不过,其实其实不是论文中所有内容表述都需要思辨性。

  同样是流传学博士的殷文则表示,AI的确可以补充学术写作,例如帮助翻译、润色文字、整合文献、激发思维。“当你想做一个题还没啥思路的时候,AI可以给你提供一些关键词,或整合一些前沿研究,你再看着去找自己感兴趣的点,有时候你没想到的可是AI更系统地去帮你想了。”殷文称。

  “但全靠AI是别指望了,全靠它我认为对话也挺费劲的,一点一点教它,我不如自己写完了。”殷文认为,如果AI是用来应付作业的确会生产很多学术垃圾,但如果真想做点本质的研究,当前的大模型还是写不出有创新性的内容的。

  即便用AI做文献综述该类不用太多创新的工作,殷文觉得“也挺鸡肋的”。“给AI一个关键词,它会选高引用的几篇论文给你堆一堆,但分不清楚哪些是前沿,也分不清楚哪篇优秀,另外在文献来源上,AI还会引用一些平时压根不会用的文章,例如百家号上的。”

  殷文认为,AI筛选的数据库还是有很大的问题,另外AI的写法也很笨,“谁谁谁说了啥这样的,或是列几个点,反正需要作者加工的还是很多,每次折腾完了还是要自己写。”

  有研究者认为,目前还不用太担忧AI垃圾影响学术研究。“学术圈一直是优胜劣汰的机制,真正能留下来、被反复引用和讨论的文章不多。AI生成的文章如果没有实质内容,很快就会被淘汰出局。不用太担忧AI垃圾充溢论文库或滋生学术不端。” 一名理论物理学博士对记者表示。

  AI学术做假有多大空间?

  对学术而言,生成式AI有其高光时刻。

  2024年诺贝尔物理学奖和化学奖都颁发给了AI领域的科学家,将AI for Science(AI驱动科学研究)的关注度提升到史无前例的水平。诺奖得主中,既包含用物理学工具开发机器学习基础方法的学者,也包含用AI模型预测蛋白质复杂结构的学者。越来越多科学家考虑用AI辅助科学研究了。

  一名化学研究者对记者表示,他在紫杉醇生物合成研究中全面应用AI,例如用AI判定实验是否生成紫杉烷类分子。一名数学物理学研究者表示,她也让学生尝试用AI识别少层 石墨烯 的层厚和转角。

  研究者们用AI加速科学研究和使用现有AI工具生成论文、进行学术做假,是这个技术的一体两面,但有着本质的区别。

  例如,要做出像上述能辅助学术研究的AI工具,门槛颇高。从2018年推出可预测蛋白质结构的AlphaFold1到2024年推出AlphaFold3,谷歌DeepMind团队花了近6年时间。记者了解到,要训练出可加速科学研究的AI工具,也需要研究者花费精力获取AI训练所需的数据,这个过程其实其实不简单。

  而使用AI工具做假,则是更快的一条捷径。学术界更受关注的事情似乎还是用AI辅助写作而未将AI的痕迹删除干净,不过,使用AI技术进行学术做假也引起了一点担忧。前阵子,一名中国学生使用ChatGPT润色论文、更改部分用户访谈内容涉嫌学术做假而被麻省理工学院退学的事情也引起舆论关注。

  记者了解到,使用AI进行学术做假的存在性在不同研究领域存在区别。在一些文科研究领域,AI的思辨性不足可能无法让其取代人工做学术。上述理论物理学博士对记者表示,在理论物理方向,也几乎没有学术做假的空间,因为论文中的推导层层递进,如果有问题可以比较直接地看出来。

  一名在读计算机博士也对记者表示,对计算机科研工作者而言,用AI做假似乎不太可行,要发顶级会议、顶级期刊的研究者无法用AI做假。学术论文要求的研究动机、方法设计、实验验证和分析相互对应,目前AI还不太可能符合要求。不过,他也承认,在审稿质量低的会议或期刊上,AI技术可能让学术不端事件容易 造成。

  对于一些较依赖实验,且实验存在较多不确定性的学科,学术做假可能有更多潜在空间,AI也有可能存在成为学术做假的帮手。刘耀文对记者表示,学术做假一直是问题,AI只是加重了对做假的担忧,原因在于AI生成速度更快、生成内容更真实。

  刘耀文表示,以往一些学术做假事件被发现,往往是因为论文出现低级错误,例如多篇文章使用同一张图、数据单位犯错,又或是数据存在人为痕迹(如66.7是100的2/3,可能人为编造),而不是因为其它研究者尝试复现实验。其背后,学术界重视个人声誉,对学术权威通常不予疑问,复现实验也需要成本,生物医学领域复现实验的成本就特别高。即便复现实验,一些研究领域也存在很大变量空间,就像“9点取的样本和10点取的样本不同”,研究者可能很难确认无法复现实验的原因,尤其是在一些起步比较晚、缺少公理的研究领域。

  刘耀文表示,学术做假后果可以参考“心肌干细胞”论文做假事件。2018年,哈佛大学医学院教授、心肌再生领域开创者皮耶罗·安韦萨被发现有31篇学术论文做假,几乎使整个研究领域遭受毁灭性打击。

  刘耀文担忧的是,有了AI技术后,论文作者可能会用AI生成看上去更专业、更真实的数据,例如数据更加随机,数据做假更难被发现。如果用AI生成实验图,看上去也更真实,实验图做假可能造成实验结果犯错。他认为,个人研究者很难鉴别他人的论文是否做假,一个因素是很多学术论文库不开源,难以找到充分的论文比对判断。

  2023年,查尔斯特大学教授Geoffrey M. Currie也在一篇论文中指出Al虚构的监测难点。他表示,“深度伪造”或造成图像虚构,好比生成对抗网络GAN可以去除噪点使医学图像更清晰,但也有可能存在被用于生成高仿真的医学图像。另外,AI生成的文本可能会通过“扭曲短语(Tortured phrases)”的形式绕过剽窃软件的监测,AI可能会更改某些文本造成文本变味。

  学术期刊如何规定AI技术使用?

  就是否接收使用了AI辅助的论文、是否采取措施鉴别论文是否使用AI辅助或做假、措施是否有效,第壹财经记者向知名学术期刊Natrue、Cell、The Lancet、Science、ACM、IEEE和中国图象图形学报发送邮件,截至发稿前未获回复。

  不过,2023年底,来自美国加州大学和英国的团队用文献计量学的要领统计了Top 100出版社和Top 100期刊针对AI的使用规范和声明,其分析结论发表在了《英国医学杂志》(TheBMJ)上。

  上述研究者发现,在前100大出版商中,24%提供了关于生成式AI使用的指导,在前100名高排名期刊中,87%提供了生成式AI使用指导。在提供指导的出版商和期刊中,只有1%的期刊明确禁止在手稿生成进程中使用生成式AI,但96%和98%的出版商和期刊分别禁止将生成式AI作为作者。

  关于该如何声明生成式AI的使用,不同 的期刊和出版社存在不同,包含在方法部分致谢等部分,但总体他们认为,作者应对AI生成的内容仔细核对,并负有全部责任。

  一名新闻学在读博士生对记者表示,目前她只注意到新闻流传学领域较颇有知名度的国际会议IAMCR对投稿论文使用AI生成技术提出要求,大致意思是可以使用AI技术,但作者需要说明使用AI工具的用途等。记者也留意到,一些知名期刊要求作者说明AI工具的使用情况。Nature对论文使用AI技术的要求包含,作者需要说明文章使用了AI工具,用AI辅助文案编辑则不需声明,但作者须对最终文本负责。Science也要求作者披露AI工具的使用,并要求作者对文章的准确性负责。IEEE要求作者在致谢部分说明文章使用AI生成内容的情景。

  由中国科学技术信息研究所牵头制订并于2024年9月发布的《学术出版中AIGC使用界限指南2.0》在论文图表制作、文字撰写、语言润色、同行评审等方面也提出规范做法。例如,蛋白质印迹实验图、组织细胞染色图等实验生成类图像不可通过AIGC直接生成,不应用AIGC发生研究假设、直接撰写整篇论文文本或解释数据,但可用于提高文本可读性、总结其它学术出版物或生成文献综述部分。科研人员对AIGC提供的资料需验证可靠性和准确性,并充分、正确披露和声明AIGC使用情况。

  据李庭观望,学界现在对AI的态度是,不反对用来辅助写作,可是写作的结果不能让人发现用了AI。

  “目前行业有AI检测网站,如果检测结果显示使用AI的存在性过高,会对学术声誉造成影响。如果论文中出现了明显是AI生成的错误,论文肯定是要被撤稿的,假如是学位论文甚至可能会拿不到学位。”李庭表示,期刊目前对AI使用没有明确的标准,不同 的刊物和学术机构对于AI有支持有禁止,可是在实际操作中往往难以证明使用了AI。

繁体中文