大众号/ 将门创投
来源:16 BIT
编译:Kathy
Mark Cicero 和 Alexander Bilbily的团队博得了2017年北美放射学会举行的机器学习应战赛,该竞赛旨在经过机器学习对儿童手部X光片停止诊断来判别儿童骨龄,该篇博文回忆了他们是如何优化算法夺得竞赛冠军的。
如今市场对机器学习的热情居高不下,“机器学习”和“深度学习”正处于2017新科技衰亡衰落周期循环(Gartner Hype Cycle)的顶端。Wired杂志的Kevin Kelly甚至说将来10000家初创企业的业务规划很容易预测:某个未知项目再加上人工智能”。虽然这说起来容易但做起来难,医学是这一技术推翻的次要候选者,由于它自然拥有少量数据,且这些数据还未失掉充沛应用。在某种水平上按数量来说,医学图像又构成了医学数据中的次要局部。
正多么多人对人工智能带来的潜在危机和行将到来的大规模失业所担忧的一样,放射学家的将来也面临着相似的严峻成绩。去年深化学习的教父Geoffrey Hinton教授说,“我们如今就应该中止培训放射学家”,他把放射学家比作郊狼,站在悬崖的边上,不晓得脚下是万丈深渊。
北美放射学会( RSNA )和加拿大放射学家协会( CAR )等大型组织曾经认识到这一点,他们没有由于恐惧而回绝这一新兴技术,而是正视它直面应战,并将这一技术作为行将召闭会议的主题。
往年,RSNA举行了一次全球机器学习竞赛,旨在开发依据儿童手部x光片预测骨骼年龄的最佳算法。获取生长异常或激素分泌异常的儿童患者手部x光片,将他们的骨骼年龄与实践年龄停止比拟,以确保他们处于生长发育的正常范围内。普通将正常范围定义为该年龄均匀值加减两个规范偏向以内。1959年,W. W. Greulich和S.I. Pyle出版了他们的第二版《手和伎俩骨骼发育的放射图谱》,该图谱是依据Brush基金支持的“人类生长和发育”的研讨编写而成,该研讨在1929年由Western Reserve大学医学院的T. Wingate Todd教授完成。
虽然后期曾经开发了骨龄剖析的自动化办法并且这些办法如今曾经上市,但是没有一种办法是可以普遍运用的。放射科医生在每次面对骨龄研讨遇到困难时,都要翻查Greulich和Pyle图谱以找到最类似的例子。相比与这种蠢笨费时的办法,在人工智能的热潮中, 机器学习却能毫不费力地完成骨龄自动化剖析。
接上去我们看下Mark Cicero 和 Alexander Bilbily是如何处理这个成绩的,他们在200次图像测试中,取得了4.265个月的均匀相对差别( MAD ),并在竞赛中首屈一指。
数 据
竞赛的数据来自美国两家医院奉献给RSNA的12612个训练样本,这些图像标注有以月为单位的骨骼年龄和患者性别的标签。首先需求确定的是,训练两个神经网络(每特性别一个)还是训练一个某种水平上包括性别信息作为输出内容的神经网络。骨骼成熟水平因性别而异,女性的比男性的骨骼成熟快得多,差别最长可达2年,并且女性青春期开端的更早。疏忽这一基本差别将立刻阻碍神经网络的表现。在架构局部中,将详细引见这方面的办法。
其次需求确定的是输出图像的分辨率。规范网络体系构造通常承受8位RGB格式的256×256像素的图像。竞赛提供的图像是8位灰度格式,大小约为2000 x 1500像素( 3 MP )。要是放射科医师在256×256像素图像上确定骨骼年龄则失掉的诊断后果不会太好,因而要求机器这样做,能够也不会发生最佳后果。相反,放射学家执行该义务不需求看完一切的300万像素,训练可以顺应这种输出大小的大型神经网络也将充溢其他应战。因而,Mark Cicero 和 Alexand不知道从何时开始,个人信用渗透到生活的方方面面。图书、数码产品免押金借用,办理签证无需银行流水证明,甚至租车住酒店都不需要交付押金……er Bilbily尝试了各种分辨率的图像,最高为750 x 750像素。最终结合数据集和可用的GPU内存,确定了 500 x 500 像素是处理成绩的最佳尺寸。
将提供的数据依照训练:验证=85 : 15的比例停止拆分,生成10720个训练图像和1892个验证图像。思索到数据集绝对较小,Mark Cicero 和 Alexander Bilbily同时扩展了训练集,以最大限制的添加网络学习的范例数量。为了补偿小验证集合的缺陷,他们在预测阶段均匀几个最佳模型的后果 (上面将详细引见)。他们没有指定测试集,由于无数据中1425个没有标签的附加图像可效劳于此功用。数据归一化并没有在整个集合上运用,由于运用的架构采用了批量归一化,并且证明在增加外部协变量偏移方面是无效的。
架 构
理论中最佳模型结合了Inception V3网络来处置图像输出。他们也尝试了许多其他盛行的网络,包括Inception V4、ResNet 152、densent和Inception v3 _SE。Keras提供了许多现成的架构,对测试十分有用。他们对网络停止了修正,从初始V3网络中最初一个级联层后提取一层,将其展平,并将其与性别网络衔接,该性别网络用来输出二进制性别信息(女性为0,男性为1 ),并经过32神经元密集衔接层对其停止馈送。在最终的单输入线性层之前,级联层经过具有“relu”激活的另外两个1000神经元密集衔接层被馈送。
这种设计的动机源于每个输出(像素和性别)对最终决策的绝对奉献。在链接层,像素奉献100384个输出,而性别奉献32个输出。之所以选择这个比率,是由于不想网络过火倾向于性别输出,而是希望赋予它影响总体预测的才能。额定的全衔接层给网络更多可学习的参数,以便在训练时期停止调整,从而使其可以推断像素和性别信息之间的关系。
每个月的单个数字输入而不是区分开的类别输入会愈加直观,并且可以防止类似的类别一同激活。多类别输入效果能够不会太好,由于它不会应用骨龄值之间的顺序关系,但是,Mark Cicero 和 Alexander Bilbily没有测试这一点。
Mark Cicero 和 Alexander Bilbily停止了40屡次实验,内容触及架构、数据集、优化器、批处置大小、损失函数和超参数。他们在 Python 3.4 运转的后端上将 Keras 2.08 与 TensorFlow 1.3 结合运用。在两台机器上运转这些实验,一台装有NVIDIA P40和两个Titan X GPU,另一台装有单个Titan X。没有运用数据或并行模型 (即每个实验都在 单个GPU 上运转)。也没有运用任何事后训练的模型,由于他们的输出图像大于惯例运用的大小,并且数据集足够大,可以运用随机初始化的网络无效地处理成绩。
500 x 500像素数据集、性别信息和标签在运转时加载到内存中。将整个数据集存储在内存中还可以运用 Keras 图像数据生成器对整个数据集停止实时数据加强。关于训练集,他们运用了20度的旋转范围,程度/垂直平移20 %,缩放20 %和程度翻转来停止数据加强,但未对验证集停止加强。这些值是依据“放射科医师格式塔规律”来选择的,即基于图像与图像之间的实践差别是什么。
train_datagen = ImageDataGenerator(rotation_range=20, width_shift_range=0.2, height_shift_range=0.2, zoom_range=0.2, horizontal_flip = True)
在没有加强状况且250×250像素的分辨率下,他们完成了8-9个月间MAE。实时加强不只极大地添加了数据集从而改良了学习,而且选择的每个变换都进步了泛化才能。经过这样的办法迫使网络去学习样本的内在的特征,而不是成像技术。用于剖析的儿童手部的图像可以改动大小地位,停止旋转,转变左右手,而这些要素不会影响算法剖析图像的才能。
最初,他们最终模型停止了500个周期(约50小时)minibatch为16的小批量训练,运用ADAM优化器尝试使输入的均匀相对误差最小化。当验证得到波动时,降低学习率。
optim = optimizers.Adam(lr=0.001, beta_1=0.9, beta_2=0.999, epsilon=1e-08, decay=0.0)
reduceLRonPlat = ReduceLRonPlateau(monitor=’val_loss’, factor=0.8, patience=10, verbose=1, mode=’auto’, epsilon=0.0001, cooldown=5, min_lr=0.0001)
他们以为“你无法改良你不能测量的物体”,Mark 和 Alexander以为在整个训练进程中必需监控模型的分歧性相关系数( Concordance Correlation Coefficient CCC ),这个他们在决赛中运用了这一度量,因而他们编写了一个定制的Keras回调函数在整个训练进程中完成这一点。
最好的三个模型在验证集上都到达了5.99个月的MAD。排在第四第五的模型完成了6.00和6.04个月的MAD。CCC坚持在0.98 – 0.99之间。
推 断
在相似的竞赛中存在多种推断技术来改良模型功能,甚至增量改良也是有利的。许多论文参考了一个10-crop-validation方案,这个方案随机剪切模型战争均化模型的预测,以增加局外点预测的影响。Mark Cicero 和 Alexander Bilbily设计了一个相似的方案,协助这个模型在Keras上成为一个生成器。经过一些实验,他们发现以下参数可以发生最佳后果。
val_datagen = ImageDataGenerator(width_shift_range=0.25, height_shift_range=0.25, horizontal_flip = True)
他们经过生成器为排名前五的模型生成10个样本,从而为每个测试图像生成50个预测后果。然后对后果求均匀并四舍五入到最接近的整数,得出最终预测。
他们设置了一个实时网络演示,该演示在Flask效劳器上运转了一个训练过的模型。运用者可以经过阅读器上传本人的图像,在挪动设备上拍照上传,或从测试集中随机选取图像停止剖析。
结 论
Larson等人对测试集中不同察看者的察看差别停止了普遍的统计剖析,并由另外三名儿科放射科医师独立审阅。他们发现,一名察看者与其他察看者的均匀MAD介于0.53至0.69年( 6.36至8.28个月)之间,均匀为0.61年( 7.32个月)。 而Mark Cicero 和 Alexander Bilbily的算法完成了 0.36年( 4.265个月) 的MAD,是不是真被说对了?我们针对不需求培训放射科医师吗?
我们以为这并不是现实的原貌。记住AI是运用数据处理特定成绩的算法和办法的集合,这一点至关重要。放射科医师是将来医学人工智能的关键,由于他们最合适辨认、指点和使用人工智能,以处理当今医学成像面临的最具影响力的临床成绩。医学影像学曾经成为医学的基石,简直每一个医学专业都依赖它来诊断、扫除或监测多种疾病,然后再做出医治决议。在活泼的放射学研讨范畴的推进下,我们持续拓宽我们的视野,并为不时增长的临床环境发明价值。智能工具不是预示着我们的消亡,而是经过进步效率和协助我们坚持异样高的精确性和质量,来扩展我们作为专业人员的研讨方向和影响力。机器学习、深度学习、人工智能(无论你想称之为什么)将成为下一代工具的根底,并最终使我们可以为患者提供更快、更好、更牢靠的护理。
现实上,我们需求持续培训放射学家来完成这个惊人的安康范畴的新纪元。智能分类算法将允许完成以前不可行的癌症筛查方案;加强的后端工具可以在取得患者扫描后果时迅速发现的潜在急性病症立刻告诉给转诊临床医生;发掘大型成像和临床数据集能够会提醒人类从未思索过的新要素,这一系列工具能为医学影像带来的优势不胜枚举……关于放射科医师来说,这是一个冲动人心的时辰,由于我们发明的价值只要经过这种新技术才干失掉缩小造福更多的人。但最初还是要给出一个忠实的建议——放射科医师要积极地拥抱革新的浪潮,不能落后于时代的潮流。
剖析网站:https://www.16bit.ai/bone-age
一些参考链接: https://www.16bit.ai/blog/ml-and-future-of-radiology
[1] https://www.gartner.com/smarterwithgartner/top-trends-in-the-gartner-hype-cycle-for-emerging-technologies-2017/
[2] https://www.youtube.com/watch?v=2HMPRXstSvQ
[3] http://rsnachallenges.cloudapp.net/competitions/4#learn_the_details
[4] https://www.amazon.ca/Radiographic-Atlas-Skeletal-Development-Wrist/dp/0804703981
[5] Lee, H., Tajmir, S., Lee, J. et al. J Digit Imaging (2017) 30: 427. https://doi.org/10.1007/s10278-017-9955-8
[6] Ioffe, Sergey, and Christian Szegedy. “Batch normalization: Accelerating deep network training by reducing internal covariate shift.” arXiv preprint arXiv:1502.03167 (2015)