早在1月份,谷歌旗下专注于健康相关研究、临床工具和医疗服务合作的分支Google Health就发布了一个在9万多张乳房X光照片上训练的人工智能模型,该公司称其取得了比人类放射科医生更好的效果。谷歌宣称,与之前的工作相比,该算法可以识别出更多的假阴性,即那种看起来正常但含有乳腺癌的图像,但一些临床医生、数据科学家和工程师对这一说法表示质疑。
在今天发表在《自然》杂志上的一篇反驳文章中,隶属于麦吉尔大学、纽约市立大学(CUNY)、哈佛大学和斯坦福大学的超过19位共同作者表示,谷歌的研究缺乏详细的方法和代码,损害了其科学价值。一般来说,科学都存在可重复性问题,2016年对1500名科学家进行的一项调查报告显示,其中70%的科学家至少尝试过复制其他科学家的实验,但失败了。
在人工智能领域,这个问题尤为严重。在2019年的ICML大会上,有30%的作者未能在会议开始前将自己的代码与论文一起提交。研究经常提供基准结果来代替源代码,当基准的彻底性受到质疑时,就会出现问题。最近的一份报告发现,自然语言处理模型给出的60%到70%的答案都嵌入了基准训练集的某个地方,这表明模型往往只是在记忆答案。
他们表示,谷歌的乳腺癌模型研究缺乏细节,包括对模型开发以及所使用的数据处理和训练管道的描述。谷歌省略了模型架构的几个超参数的定义,也没有披露用于增强模型训练的数据集的变量。这可能会显著影响其性能,Nature的共同作者声称,例如,谷歌使用的其中一个数据增强有可能导致同一患者的多个实例,从而使最终结果出现偏差。
谷歌方面表示,用于训练该模型的代码对内部工具、基础设施和硬件有许多依赖性,使其发布不可行。该公司在决定不发布这两个训练数据集时,还提到了这两个训练数据集的专有性和患者健康数据的敏感性。但Nature的共同作者指出,原始数据的共享在生物医学文献中已经变得越来越普遍,从2000年代初的不足1%增加到现在的20%,而且模型预测和数据标签本来可以在不泄露个人信息的情况下发布。