关键词:SCI论文;图像查重;软件
Nature杂志新闻版于2020年7月21日发表一篇重磅消息:论文图片查重软件研发成功,在对3500篇预印版论文进行的检测中,找出24张涉嫌重复/造假的图像。
这对于论文造假无疑是一记重锤。
一,疯狂的论文造假
由于存在巨大的利益,论文造假一直屡见不鲜,甚至在部分国家或地区形成了造假论文产业链。
有造假、就有打假;但与庞大的造假数量相比,靠几个志愿者打假,显然是杯水车薪。
比克博士再揭121篇涉嫌造假论文,113发表在同一杂志;还在等之前400余篇处理结果
SCI论文造假新高度:8篇一样。
二,中国是重灾区之一
美国Healsan Consulting LLC对全球撤稿数据库的分析显示,
1,中国SCI论文撤稿占到所有撤稿的44.0%。
截止到2020年6月22日,世界范围内共有23,425篇SCI撤稿,其中中国有10,303篇,远远高于第二位的美国4,125篇。中国论文撤稿占44%。
(图1. Credit:Healsanconsulting LLC, USA)
2,剽窃仍然是中国SCI论文撤稿的首要原因。
近三年中国SCI论文共有1397篇SCI论文撤稿,其中因为剽窃所致的撤稿有547篇(39%),另外错误所致的撤稿有330篇(24%)。
(图2. Credit:Healsanconsulting LLC, USA)
中国SCI论文撤稿占44%,2012年起撤稿数量持续上涨
三,图片查重软件应运而生
上面数据中提到的占撤稿原因39%的“抄袭”,主要是指文字抄袭。因为目前的查重系统只能查文字,不能查图片。
而撤稿第二常见原因“错误”部分,则主要是图片“错误”。在目前靠人工检查的情况下,就已经发现了大量伪造的图片,可知实际情况多么严重。
所以当论文图像查重软件的研发者,美国纽约Syracuse大学的机器学习研究人员Daniel Acuna,递交了其第一批图片查重结果时,立即引起学术界的关注。
识别原理
其基本原理是,将提取图片放大以获得特征性图片数字“指纹”,从而即使图片做了旋转、大小调整、截取、改变对比度或颜色,该软件仍然能够识别出其相似度。
根据Acuna研究团队之前的检测结果,他们推测数据库中1.5%论文包含有可疑的图像,而0.6%论文包含有欺诈性图像。
小时牛刀
这款软件从2015年开始研发,历经5年反复测试、并经过小范围试用终获成功。首次正式应用于新冠病毒病(COVID-19)领域预印版论文的识别。因为这个领域论文的爆发程度不亚于病毒传播,低质量、甚至造假论文也屡见不鲜。
Acuna研究团队从bioRxiv和medRxiv服务器上下载了3500篇论文,总共有21,000张图片。在4个小时内,该软件就找到约400张可能重复的图像。经过人工鉴定后,Acuna团队认为,其中的24张包含有重复图片,并在7月份将之公布在其网站上。
优势和不足
Acuna团队的检测结果立即引起轰动。
因为是通过软件自动检测,可以大规模发现重复的图像;另外可以发现人工不能识别的图像。
收到email通知后一些论文作者立即回应,承认该软件找到的是重复图片,并表示将纠正错误。芬兰赫尔辛基大学病毒学家Giuseppe Ballistreri更是建议在PubMed数据库中应用该软件。
著名学术打假人伊丽莎白·比克(Elisabeth Bik)在赞许之余,也建议在正式公布软件识别的造假图片之前,由她做鉴定。因为该软件识别出的“嫌疑图片”仍然需要人工确认。
但也有一些收到通知的学者说,Acuna的软件搞错了,标记出来并不匹配的图像。美国北卡罗来纳州的学者则要求Acuna删除其网站公示,因为Acuna软件对其论文图片做了错误识别。
进一步处理方法
基于上述反馈,Acuna已经将其识别出来的“造假图片”由网站公示改为私下访问。只有从他的email通知的学者,才能凭借给予的密码进行访问和回复。
所以设置的“嫌疑造假图片”处理流程也变为:先通知作者,如果作者不回复则将公开。
在初尝战果后,Acuna也计划扩大软件筛查范围。Acuna特别告诫说:“我希望作者意识到,有人正在对所有的论文图片进行识别。”