白癜风治疗医院 https://jbk.39.net/yiyuanzaixian/bjzkbdfyy/选自lukeoakdenrayner作者:LukeOakden-Rayner机器之心编译自动处理医疗影像一直是人工智能的重要发展方向之一,吸引了很多知名学者参与其中,并已出现了很多引人注目的成果。近期斯坦福大学吴恩达等人提出的CheXNet便是其中之一。研究人员在其论文中表示:新技术已经在识别胸透照片中肺炎等疾病上的准确率上超越了人类专业医师。然而,另一群学者对目前的一些研究产生了怀疑。本文作者LukeOakden-Rayner是阿德莱德大学的放射科在读博士,曾作为第一作者于今年5月在Nature上发表文章介绍了自己利用深度学习等技术预测人类寿命的研究。如果你关心机器学习和医学,请阅读这篇重要而深刻的文章。——GaryMarcus,纽约大学教授几周前,我曾提到自己对于ChestXray14数据集有所担心。我曾说过在自己掌握更多信息后会深入探讨这个问题。在这段时间里,我深入挖掘了数据结构与内容,并与Summers博士(数据集提出者之一)用邮件进行了交流。不幸的是,这些行动只是加剧了我对数据集的担忧。免责声明:我认为本文不能反映深度学习在医疗领域应用的广泛观点,或是主张人类表现是无法超越的。本文的观点基于我对近期研究发展的考量。该结果仅针对ChestXray14数据集,代表了我们在面对医疗数据时面临的挑战。这一挑战是可以被战胜的,在未来的文章中,我会介绍战胜它们的方法。让我们先给出结论,我认为目前的ChestXray14数据集不适用于训练医用人工智能系统进行诊断工作。为了清晰证明我的观点,我将在本文中讨论以下几个问题:标签的准确度标签的医学意义标签对于图像分析的重要性本文的大部分篇幅都将用于介绍我的立场,但是首先我们先要谈谈引入这个数据集的论文《ChestX-ray8:Hospital-scaleChestX-rayDatabaseandBenchmarksonWeakly-SupervisedClassificationandLocalizationofCommonThoraxDiseases》。我必须指出,自首次发布以来,该数据集的论文和支持文档已经更新过多次——自我开始谈论此事之后至少已经更新过两次。尽管如此,在通读了文档后,我仍然认为我的观点是合适的。在我看来,该论文需要花更多的时间解释数据集本身。特别是在该数据集的大量使用者是计算机科学研究人员,缺乏临床知识的情况下,这种需求就显得尤为迫切了。然而,这篇论文主要介绍了文本挖掘和计算机视觉任务,其中有一张图(第八页)、一个图表展示了数据集中标签的准确性。以下文本挖掘的性能测试结果是在论文发表于CVPR之后添加的(这篇论文是CVPR的Spotlight):这张列表展示了一些有意思的东西,其中展示的原始结果(上半部分)是在公开的OpenI数据集上进行测试的,其中不仅包括报告,也有人类打上的完整标签。例如,如果一份报告说道:「有基底固结」,就会使用标签「固结/基底」。而列表中下面的部分是ChestX-ray14自己的数据,这个部分自从论文的第一个版本以来一直存在。为了制作测试集,研究人员随机选择了份报告,并有两位注释者(在这里我们假设他们都是专业的放射科医师)进行标注,他们共同分类了其中的14种疾病。这里需要注意的是,这些注释者并没有直接检视图像(据我所知)。在列表中,我们可以看到算法在几乎所有分类中都有了很好的结果,尤其是在他们自己的数据上。这里唯一的限制是每个类别的流行程度,很多罕见疾病的流行程度约为1-3%,在此我们假设在随机选择报告时研究人员并没有刻意挑选样本——这样测试集中的很多结果都含有10-20个范例。这本来不是问题,但数据体量的限制会让误差变大(如果一个类别中的样例数量为10-30,只有一个错误,那么95%置信区间的阳性预测值会在75%-88%)。但如果允许一些偏差值,每个标签看起来准确度都在85-99%,至少准确反映了报告结果。永远
转载请注明:
http://www.aideyishus.com/lkyy/7258.html