SCI论文图像查重软件研发成功造假图片，无处可藏

2020-07-22新闻6

关键词：SCI论文；图像查重；软件

Nature杂志新闻版于2020年7月21日发表一篇重磅消息：论文图片查重软件研发成功，在对3500篇预印版论文进行的检测中，找出24张涉嫌重复/造假的图像。

这对于论文造假无疑是一记重锤。

一，疯狂的论文造假

由于存在巨大的利益，论文造假一直屡见不鲜，甚至在部分国家或地区形成了造假论文产业链。

有造假、就有打假；但与庞大的造假数量相比，靠几个志愿者打假，显然是杯水车薪。

比克博士再揭121篇涉嫌造假论文，113发表在同一杂志；还在等之前400余篇处理结果

SCI论文造假新高度：8篇一样。

二，中国是重灾区之一

美国Healsan Consulting LLC对全球撤稿数据库的分析显示，

1，中国SCI论文撤稿占到所有撤稿的44.0%。

截止到2020年6月22日，世界范围内共有23,425篇SCI撤稿，其中中国有10,303篇，远远高于第二位的美国4,125篇。中国论文撤稿占44%。

（图1. Credit：Healsanconsulting LLC, USA）

2，剽窃仍然是中国SCI论文撤稿的首要原因。

近三年中国SCI论文共有1397篇SCI论文撤稿，其中因为剽窃所致的撤稿有547篇（39%），另外错误所致的撤稿有330篇（24%）。

（图2. Credit：Healsanconsulting LLC, USA）

中国SCI论文撤稿占44%，2012年起撤稿数量持续上涨

三，图片查重软件应运而生

上面数据中提到的占撤稿原因39%的“抄袭”，主要是指文字抄袭。因为目前的查重系统只能查文字，不能查图片。

而撤稿第二常见原因“错误”部分，则主要是图片“错误”。在目前靠人工检查的情况下，就已经发现了大量伪造的图片，可知实际情况多么严重。

所以当论文图像查重软件的研发者，美国纽约Syracuse大学的机器学习研究人员Daniel Acuna，递交了其第一批图片查重结果时，立即引起学术界的关注。

识别原理

其基本原理是，将提取图片放大以获得特征性图片数字“指纹”，从而即使图片做了旋转、大小调整、截取、改变对比度或颜色，该软件仍然能够识别出其相似度。

根据Acuna研究团队之前的检测结果，他们推测数据库中1.5%论文包含有可疑的图像，而0.6%论文包含有欺诈性图像。

小时牛刀

这款软件从2015年开始研发，历经5年反复测试、并经过小范围试用终获成功。首次正式应用于新冠病毒病（COVID-19）领域预印版论文的识别。因为这个领域论文的爆发程度不亚于病毒传播，低质量、甚至造假论文也屡见不鲜。

Acuna研究团队从bioRxiv和medRxiv服务器上下载了3500篇论文，总共有21,000张图片。在4个小时内，该软件就找到约400张可能重复的图像。经过人工鉴定后，Acuna团队认为，其中的24张包含有重复图片，并在7月份将之公布在其网站上。

优势和不足

Acuna团队的检测结果立即引起轰动。

因为是通过软件自动检测，可以大规模发现重复的图像；另外可以发现人工不能识别的图像。

收到email通知后一些论文作者立即回应，承认该软件找到的是重复图片，并表示将纠正错误。芬兰赫尔辛基大学病毒学家Giuseppe Ballistreri更是建议在PubMed数据库中应用该软件。

著名学术打假人伊丽莎白·比克（Elisabeth Bik）在赞许之余，也建议在正式公布软件识别的造假图片之前，由她做鉴定。因为该软件识别出的“嫌疑图片”仍然需要人工确认。

但也有一些收到通知的学者说，Acuna的软件搞错了，标记出来并不匹配的图像。美国北卡罗来纳州的学者则要求Acuna删除其网站公示，因为Acuna软件对其论文图片做了错误识别。

进一步处理方法

基于上述反馈，Acuna已经将其识别出来的“造假图片”由网站公示改为私下访问。只有从他的email通知的学者，才能凭借给予的密码进行访问和回复。

所以设置的“嫌疑造假图片”处理流程也变为：先通知作者，如果作者不回复则将公开。

在初尝战果后，Acuna也计划扩大软件筛查范围。Acuna特别告诫说：“我希望作者意识到，有人正在对所有的论文图片进行识别。”