ZKX's LAB

SCI论文图像查重软件研发成功造假图片,无处可藏

2020-07-22新闻6

关键词:SCI论文;图像查重;软件

Nature杂志新闻版于2020年7月21日发表一篇重磅消息:论文图片查重软件研发成功,在对3500篇预印版论文进行的检测中,找出24张涉嫌重复/造假的图像。

这对于论文造假无疑是一记重锤。

一,疯狂的论文造假

由于存在巨大的利益,论文造假一直屡见不鲜,甚至在部分国家或地区形成了造假论文产业链。

有造假、就有打假;但与庞大的造假数量相比,靠几个志愿者打假,显然是杯水车薪。

比克博士再揭121篇涉嫌造假论文,113发表在同一杂志;还在等之前400余篇处理结果

SCI论文造假新高度:8篇一样。

二,中国是重灾区之一

美国Healsan Consulting LLC对全球撤稿数据库的分析显示,

1,中国SCI论文撤稿占到所有撤稿的44.0%。

截止到2020年6月22日,世界范围内共有23,425篇SCI撤稿,其中中国有10,303篇,远远高于第二位的美国4,125篇。中国论文撤稿占44%。

(图1. Credit:Healsanconsulting LLC, USA)

2,剽窃仍然是中国SCI论文撤稿的首要原因。

近三年中国SCI论文共有1397篇SCI论文撤稿,其中因为剽窃所致的撤稿有547篇(39%),另外错误所致的撤稿有330篇(24%)。

(图2. Credit:Healsanconsulting LLC, USA)

中国SCI论文撤稿占44%,2012年起撤稿数量持续上涨

三,图片查重软件应运而生

上面数据中提到的占撤稿原因39%的“抄袭”,主要是指文字抄袭。因为目前的查重系统只能查文字,不能查图片。

而撤稿第二常见原因“错误”部分,则主要是图片“错误”。在目前靠人工检查的情况下,就已经发现了大量伪造的图片,可知实际情况多么严重。

所以当论文图像查重软件的研发者,美国纽约Syracuse大学的机器学习研究人员Daniel Acuna,递交了其第一批图片查重结果时,立即引起学术界的关注。

识别原理

其基本原理是,将提取图片放大以获得特征性图片数字“指纹”,从而即使图片做了旋转、大小调整、截取、改变对比度或颜色,该软件仍然能够识别出其相似度。

根据Acuna研究团队之前的检测结果,他们推测数据库中1.5%论文包含有可疑的图像,而0.6%论文包含有欺诈性图像。

小时牛刀

这款软件从2015年开始研发,历经5年反复测试、并经过小范围试用终获成功。首次正式应用于新冠病毒病(COVID-19)领域预印版论文的识别。因为这个领域论文的爆发程度不亚于病毒传播,低质量、甚至造假论文也屡见不鲜。

Acuna研究团队从bioRxiv和medRxiv服务器上下载了3500篇论文,总共有21,000张图片。在4个小时内,该软件就找到约400张可能重复的图像。经过人工鉴定后,Acuna团队认为,其中的24张包含有重复图片,并在7月份将之公布在其网站上。

优势和不足

Acuna团队的检测结果立即引起轰动。

因为是通过软件自动检测,可以大规模发现重复的图像;另外可以发现人工不能识别的图像。

收到email通知后一些论文作者立即回应,承认该软件找到的是重复图片,并表示将纠正错误。芬兰赫尔辛基大学病毒学家Giuseppe Ballistreri更是建议在PubMed数据库中应用该软件。

著名学术打假人伊丽莎白·比克(Elisabeth Bik)在赞许之余,也建议在正式公布软件识别的造假图片之前,由她做鉴定。因为该软件识别出的“嫌疑图片”仍然需要人工确认。

但也有一些收到通知的学者说,Acuna的软件搞错了,标记出来并不匹配的图像。美国北卡罗来纳州的学者则要求Acuna删除其网站公示,因为Acuna软件对其论文图片做了错误识别。

进一步处理方法

基于上述反馈,Acuna已经将其识别出来的“造假图片”由网站公示改为私下访问。只有从他的email通知的学者,才能凭借给予的密码进行访问和回复。

所以设置的“嫌疑造假图片”处理流程也变为:先通知作者,如果作者不回复则将公开。

在初尝战果后,Acuna也计划扩大软件筛查范围。Acuna特别告诫说:“我希望作者意识到,有人正在对所有的论文图片进行识别。”

随机阅读

qrcode
访问手机版