雷锋网 AI科技评论按:在上月26日,谷歌在arXiv上宣布的一篇论文《 Scalable and accurate deep learning for electronic healthrecords》( Alvin Rajkomar et al. )。文中他们提出基于疾速医疗保健互操作性资源(FHIR)格式的患者EHR原始记载表示,应用深度学习的办法,精确预测了多起医疗事情的发作。
论文摘要如下:
运用电子安康记载(EHR)数据的预测建模估计将推进团体化医疗并进步医疗质量。 构建预测性统计模型通常需求从标准化的EHR数据中提取战略预测变量,这是一种休息密集型进程,且保持了患者记载中绝大少数信息。我们提出基于疾速医疗保健互操作性资源(FHIR)格式的患者全部EHR原始记载的表示。我们证明运用这种表示办法的深度学习办法可以精确预测来自多个中心的多个医疗事情,而无需特定地点的数据协调。我们运用来自两个美国学术医疗中心的去辨认的EHR数据验证了我们的办法,其中216,221位成年患者住院至多24小时。在我们提出的序列格式中,这一块EHR数据总计包括了46,864,534,945个数据点,包括临床阐明。深度学习模型对预测院内死亡率(AUROC跨站点0.93-0.94),30天无方案再出院率(AUROC 0.75-0.76),延伸住院工夫(AUROC 0.85-0.86)以及一切患者的最终诊断(频率加权AUROC 0.90)等获得了极高的精确度。在一切状况下,这些模型的表现都优于传统的预测模型。我们还引见了一个神经网络归因零碎的案例研讨,该零碎阐明临床医生如何取得预测的一些通明度。我们置信,这种办法可以为各种临床环境创立精确的、可扩展的预测,且附有在患者图标中直接高亮证据的解释。
在这项研讨进程中,他们以为若想大规模的完成机器学习,则还需求对FHIR规范添加一个 协议缓冲区工具 ,以便将少量数据序列化到磁盘以及允许剖析大型数据集的表示方式。
昨天,谷歌发布音讯称曾经开源该协议缓冲区工具。上面为谷歌博文内容,雷锋网 (大众号:雷锋网) 编译如下:
过来十年来,医疗保健的数据在很大水平上曾经从纸质文件直达变为数字化为电子安康记载。但是要想了解这些数据能够还存在一些关键性应战。
-
首先,在不同的供给商之间没有共同的数据表示,每个供给商都在运用不同的方式来构建他们的数据;
-
其次,即便运用同一个供给商网站上的数据,能够也会有很大的不同,例如他们通常对相反的药物运用多种代码来表示;
-
第三,数据能够散布在许多不同表格中,这些表格有些存在交集,有些包括着实验数据,还有些包括着一些生命体征。
采用至多一个根本电子病历零碎并拥有经过认证的电子病历零碎的非联邦急性护理医院的百分比。Basic的电子安康记载( Electronic Health Record ,EHR)满足EHR零碎的根本功用,Certified EHR表示医院曾经与EHR有法律协议,但不同等于采用了EHR零碎。
疾速医疗保健互操作性资源 (Fast Healthcare Interoperability Resources,FHIR)作为一项规范草案,描绘的是用于交流电子病历数据格式和数据元以及使用顺序界面,该规范由医疗效劳规范组织Health Level Seven International制定。这项规范曾经处理了这些应战中的大少数:它具有坚实的、可扩展的数据模型,树立在既定的Web规范之上,并且正在迅速成为团体记载和批量数据拜访中现实上的规范。 但若想完成大规模机器学习,我们还需求对它做一些补充 :运用多种编程言语的工具,作为将少量数据序列化到磁盘的无效办法以及允许剖析大型数据集的表示方式。
明天,我们很快乐 开源 了FHIR规范的 协议缓冲区工具 ,该工具可以处理以上这些成绩。以后的版本支持Java言语,随后很快也将支持C++ 、Go和Python等言语。另外,关于配置文件的支持以及协助将遗留数据转换为FHIR的工具也将很快推出。
开源地址: https://github.com/google/fhir
协议缓冲区工具: https://developers.google.com/protocol-buffers/
FHIR作为中心数据模型
在过来几年中,我们不断在与学术医疗中心停止协作,应用机器学习的办法“去辨认”(de-identified)医疗记载(即剥离任何团体身份信息,以预测将来能够的状况,可以在症候呈现前预知患者的需求。),很分明我们需求正视医疗保健数据中的复杂性。现实上,机器学习关于医疗数据来说十分无效,因而我们希望可以愈加片面地理解每位患者随着工夫的推移发作了什么。作为红利,我们希望拥有一个可以直接使用于临床环境的数据表示。
虽然FHIR规范可以满足我们的大少数的需求,但是运用医疗数据将比“传统”的数据构造更容易管理,并且完成了统一于供给商的大规模机器学习。我们置信缓冲区的引入可以协助使用顺序开发人员(机器学习相关)和研讨人员运用FHIR。
协议缓冲区的以后版本
我们曾经努力使我们的协议缓冲区表示可以经过编程式拜访以及数据库查询。提供的一个示例显示了如何将FHIR数据上传到Google Cloud的BigQuery(注:BigQuery 是 Google 专门面向数据剖析需求设计的一种片面托管的 PB 级低本钱企业数据仓库。)并将其提供应内部查询。我们也正在添加其他直接从批量数据导出并上传的示例。我们的协议缓冲区遵照FHIR规范(它们实践上是由FHIR规范自动生成的),但也可以采用更优雅的查询方式。
目前的版本还没有包括对训练TensorFlow模型提供支持,但将来将更新。 我们的目的是尽能够地开源我们最近的任务,以帮我们的研讨 ,使其更具可反复性并可以适用于理想世界的场景当中。 此外,我们正与Google Cloud中的同事停止亲密协作,研讨更多用于管理医疗保健数据的工具。
via Google Blog,雷锋网AI科技评论编译
。