雷锋网 AI 科技评论按:近期来自纽约雪城大学的 Daniel Acuna 等人在 bioRxiv 上宣布了一篇文章 ,作者在文章提出了一种机器学习算法,该算法可以自动停止论文图片查重,其目的旨在处理文献查重中的一个死角——图片查重。
目前许多期刊都会对一些图片停止查重,但只要极多数的期刊有自动化的查重流程。例如《Nature》期刊对收到的稿件普通会停止随机抽样检测,《Journal of Cell Biology》以及《The EMBO Journal》等期刊则对稿件中的大局部图片停止手工查重。显然手工查重费时费力,这也是为什么到目前为止大局部期刊都没有图片查重这一项。
但是这并不意味着图片查重不重要;假如可以及时发现不当的图片剽窃(重用),那么能够会制止许多学术不端行为。
以 2014 年惊动学术圈的 小保方晴子(Haruko Obokata)学术造假丑闻 为例,事先小保方团队同一天在《Nature》上宣布了两篇文章,文章称他们重新生小鼠身上别离的细胞经过 STAP 办法可以取得胚胎干细胞。
据后来人们的调查发现,在文章中竟赫然有两张图片运用了她在博士学位论文中的图片,而这些图片事先是用于表示细胞本来就处于胚胎形态的,而非 STAP 之后变为胚胎形态。在这个事情中,假如《Nature》期刊可以在宣布之前检测出文章中的图片重用,那么这个让整个学术圈震惊的造假丑闻也许就能扼杀于摇篮之中了。
但是现实是,没有。
再说一下美国研讨诚信办公室(US Office of Research Integrity, ORI)。ORI 有多种工具来协助任务人员停止图片查重,但每年他们也只报告了大约 10 例的学术不端行为;为了这多数的几例报告,不晓得他们要查阅多少案例/文件以及比照多少图片。不过需求阐明的是,ORI 并不会去自动审查学术不端(本钱有点高),除非有匿名检举。
显然,他们等待自动图片查重顺序的呈现。
Daniel Acuna 等人宣布在 bioRxiv 上的 这篇预印文章 或许为此提供了一线希望。
总的来说,作者首先剖析了 PubMed Open Access Subset(PMOS)数据集(2015)中包括的 200 多万张图片,经过他们开发的自动查重管道可以自动检测出由相反的第一(最末)作者发布的多组论文的图片重用。之所以做出「相反的第一(最末)作者」的限定,是为了降低模型的工夫复杂度。由于缺乏相应的测试数据集,作者就制定一个规范,然后让一群人类审阅者手工来反省这些检测到的图片能否真的有重用,以此来评价自动查重管道的无效性。
上面我们来看这篇论文的详细内容。
数 据
作者剖析了 PMOS(2015)下去自 4324 个期刊的 760036 篇论文,其中有 2,628,959 张图片。当然并不是一切的图片都会被用到,例如有些是和公式相关;将这些图片从中肃清掉。均匀来近一年来,国家加大了对于互联网金融的管理力度,各种管理政策不断出台,不少业内人士对于互联网金融都保持着谨慎看好的态度,但是安方丹却保持了乐观的态度,她认为,互联网金融行业在当前是“风口上的大象”,技术正是这股风的原动力。说大约每篇论文包括 4.78 张图片。
方 法
文章中运用的办法包括:复制-挪动检测算法(Copy-move detection algorithm)、生物医学补丁检测(Biomedical patches detector)、人工评价算法的无效性。
复制-挪动检测算法
作者在这里运用了和 V. Christlein et al.(2012) 相反的算法:基于关键点的检测办法。这有以下几个流程:
-
(Fig A)运用低阈值 SIFT 关键点检测算法计算关键点。
-
(Fig B)找到欧氏空间中图片上的一切关键点中两两临近的点,这些关键点对的间距要小于等于第二近邻间隔的 60%。将其他没有婚配或婚配水平小于 40 个像素的关键点移除。
-
(Fig C)对关键点停止立体聚类,伴随着互联网和移动生活的日趋成熟,芝麻信用高分和良好的个人征信记录,不仅可以办理贷款、申请信用卡延伸你的财富,更能大大便利我们的生活。移除聚类面积小于 40x40 平方像素的集群。假如再一个集群中,有超越三个关键点与同一个集群相婚配,那么就将这两个集群定义为婚配集群。
-
(Fig D)运用 RanSac 算法找到婚配的簇之间的仿射变换。
如我们后面所说,思索到在数百万张图片上停止最近邻搜索的工夫复杂度,作者在这里只剖析了第一(最末)作者的数据。雷锋网 (大众号:雷锋网) 以为,假如想要将这种算法使用到实践使用中,能够还需求思索如何降低该算法的工夫复杂度。
生物医学补丁检测
在迷信文章中,许多图片都有着极为类似的区域,例多么多图片会运用类似的文本和外形来描绘图形的某些区域(轴标签、箭头号),因而后面的算法发现的许多婚配能够就是这些内容。于是作者开发了另外一个额定的步骤。
作者首先从上一步「复制-挪动检测」后果中抽取 20k 的样本,让随机森林来预测一个婚配是生物医学婚配的概率,然后依据预测的熵对这些婚配停止排序,选择出熵值较高的婚配,然后让一些论文作者来标志(哪些是生物医学婚配)。人工标志后,将这些数据添加到训练数据集中,然后反复这个进程。经过这种方式来肃清掉非生物医学的婚配。
这种办法分明有一个很大的缺乏之处,即需求专业知识才干停止人工标注。这大大限制了本文办法的普遍使用。这个作者在文章中也有提到。
人工评价算法的无效性
论文图片查重研讨的一个很大成绩是,没有测试集。于是 Daniel Acuna 他们三人就担任了这团体类评价器。他们制造了一个基于网络的工具,这个工具包括了上述婚配后果中的 10000 个能够有成绩的案例,并且提供了与 PUBMED 的链接,可以看到相应图片的标题、阐明以及文章自身。三团体独立审查了一切这些案例,并依照 No problem、suspicious、potential fraud、fraud 来给这些婚配后果停止评价。
结 果
经过以上三个步骤以及相关细节的约束,作者得出如下图所示的后果。
其中左侧 A 图为生物医学图被重用的比例。可以看出,在一切这些论文中有大约 1.5%(0.6%+0.9%)的论文是需求调查其论文能否存在诈骗,其中有 0.6% 的论文存在分明的图片重用。
另一方面,从右侧的 B 图,我们可以看出一个有意思的景象:跨论文的图片重用婚配更有能够属于学术不端行为(43.1%)。
讨 论
这篇论文的意义一方面指出了 PubMed 开放获取的论文中,有相当多的论文(0.59%)被三位迷信家分歧以为存在欺诈行为,另一方面它提出了一种大规模剖析文献图片重用(剽窃、欺诈)的办法,为各类期刊及研讨诚信机构提供了可行的、节省本钱的办法。
当然(我们也在上文中局部指出了)这项任务还存在着许多有待改良的中央:
-
在标志非生物医学补丁时,需求有专业背景知识的专家的参与,这大大限制了这种办法扩展到其他范畴。 如何改良算法或框架,从而不再需求专家知识,是接上去研讨的重点之一。
-
Daniel Acuna 等人的这项任务为了降低工夫复杂度,一方面只选择了大批的生物医学的出版物(4324 个期刊的 760036 篇论文),另一方面只思索了第一(末位)作者本身论文中的图片重用景象。能否将这种办法使用到亿级规模的出版文献库中,还有待察看。不论怎样来说, 降低模型的复杂度,是将这种办法推行到工业级的殊途同归。
-
还有一点,也是这种办法的一个痛点,即没有测试集。 如何构建训练-测试集,能够是促进相关研讨的一项重要任务。 雷锋网以为,从利益相关的角度来说,能够期刊和研讨诚信机构更应该在这些方面做出努力和尝试。
但是不论怎样说,这篇文章所构建的这种办法能够将是完成针对学术文献中图片查重漫长而艰苦的征程中的第一步。
科研人员为什么会在学术文献中造假不得而知,但是无论动机如何,随着机器学习以及人工智能的开展,能够做这种行为之前就需求慎重思索了。
据 《Nature》旧事 引见,Daniel Acuna 他们还没有地下他们的算法,但曾经和芝加哥东南大学研讨诚信办公室主任、美国研讨诚信官员结合会副主席 Lauran Qualkenbush 停止了讨论。后者表示:「这对研讨诚信办公室十分有用,我十分希望往年我的办公室可以成为 Daniel 这项工具的试点单位。」
。