当前位置: 首页 > 运动场馆

谷歌与全球顶级医学院联手,Jeff Dean等扛鼎首篇电子病历论文,康奈尔大学王飞解读

发布日期:2019-07-14 19:01:25 | 编辑:有氧运动网| 阅读次数:
  继赢得了新专栏作家:王飞,在康奈尔大学W?ill医学院的助理教授,新智元[导读]本周,谷歌公开了一种期待已久的纸张上的arXiv,也可能是谷歌在电子病历第一篇文章的分析模型,利用深度学习模型,率队杰夫·迪恩,一些大牛联合加州大学旧金山分校,斯坦福大学,UChicago等知名院校,从标题到作者所谓的奢侈品。然而,美国康奈尔大学助理教授汪小菲的威尔医学院认为,文章写的中规中矩,没有太多的惊喜,这里的关键点,然后选择讲“太弱”从计算模型的基准,再次印证相关问题的医疗记录电子分析不容易解决,同时也为我们指点克服困难。

  本周,杰夫·迪恩大神领兵一票,挂出所谓的arXiv的文章“可扩展性和精确的深度学习的电子健康记录“。这从标题到作者的文章吊足了大家的胃口。

  从针对对象来看,学习你的深度不必说,电子病历是近年来的热点研究,特别是在医疗信息技术领域。与医学图像,电子病历包含更多信息,有时连续性,当然数据,导致也更多的挑战,因为隐私,数据中的噪声,非均匀性等这样的较大的量相比。。这些挑战导致了电子病历的分析,近年来随着大量的机器学习方法的文章,这些文章发表在各大顶级会议,如NIPS,ICML,KDD,和AMIA的更多部分应用程序。

  但从笔者来看,杰夫·迪恩不用说,富国勒,谁也熟悉人物的深度学习社区。此外,Nigam公司沙阿是在斯坦福中心生物医学信息学终身教授,他在学术医学信息非常活跃,学习机一直在推动信息技术在数据挖掘中医学中的应用,并已被邀请作为一个行业主题扬声器在KDD 2014。而阿图·巴特是最有影响力的学者医学信息学,他从加州大学旧金山分校斯坦福挖的人来时就引起了不小的轰动。他自己计算UCSF健康科学中心美国医师学院任第一届理事(计算研究所健康科学)。2017年夏天,他的妻子一个小酒吧专门捐赠给支持他的研究,1000万$至阿图尔礼物,可以影响的人得到满足。因此,无论标题或作者阵容,本文绝对称得上豪华。

  这篇文章是不是偶然出生,2017年5月,时,谷歌是广发英雄帖,呼吁医疗学校,医院,各类研究中心和其他医疗数据有助于他们与谷歌的数据使用谷歌丰富的计算资源数据的价值矿业。该谷歌最初选择加州大学旧金山分校,斯坦福大学,UChicago作为合作单位,这些单位也当时提出了新闻报道。因此,本文也可以看作是万众瞩目,期待已久的 - 每个人都想来看看谷歌,什么最有能力做出联合医学院。果然,一篇文章,我收到了很多朋友的邮件圈。

  研究概述:与预测四大关键指标的电子病历学习深入分析

  写文章的开头很大气,基本上我们想要一统江湖的姿态。

   文章在两个大型医院系统,电子病历和加州大学旧金山分校的UChicago,具有深厚的学习模型来预测要四样东西:住院期间死亡的风险); 再次住院超过2)计划的风险; 3)住院时间长的时间; 4)疾病的诊断放电。

\

  这四件事情是在医学上非常重要,非常有代表性的东西,正如作者在文章中说,表示临床结果的第一件事情,第二个代表医疗保健的质量,代表了第三的利用医疗资源,患者病情的第四典型。还记得,遗产基金会曾组织了一个竞赛,预测住院天数,并提供$ 3百万奖得主的奖励。

  第二十非常仔细地描述了一些实验性的信息,比如如何建立患者队列,如何转型的特点,如何评价算法等。。对于每个预测任务中,作者选择了临床常用算法进行比较,例如,评估死亡EWS得分的风险,以及评价再住院医院的得分等的风险。,这些模型做了细微的改进。通过比较最终,在模特们比这些传统的模型(AUC普遍提高0显著更好。1左右)。

  纸插图:使用深度研究,以预测死亡,深度学习24小时左右的时间(实线),比基线水平(虚线)精度的住院期间的风险。

  临界深度学习模型:LSTM,前馈神经网络和决策树

  使用以下三种模式的简要概述。要提到的是,输入模型前,在所有事件的所有电子医疗记录被嵌入到一个单一的低维空间。

  首先是记忆的传统长度。因为在同一时间有可能是发生多个事件,如果这些事件是不同的类型(如诊断试剂和药品),那么作者提出拼接起来; 如果这些事件都是同一类型的,那么笔者把它们放到一个加权平均,而权重通过学习获得,作者反复发作的神经网络模型称为加权。

  二是传统的前馈神经网络。要使用这个方法,我们需要事件的患者电子病历序列转化为向量表示。为了实现这一点,所有的事件将是每个序列的加权平均,并提出了几种不同的策略来设计的权重,而这些权重是与事件相关的时间间隔发生的时间预测的时间点。尽管不同的具体设计,但基于电子病历的预测模型这段时间相关的加权策略是很常见的,例如,去年大约在嵌入式时间的一系列事件,江小倩老师UCSD写作者以及密歇根州立大学的周瑜老师写的时间敏感的记忆长度使用文章。

  三是提升基于时间的决策桩。这里是一个决策树一堆是,在文章中,大量的二元决策规则。在实际的决策,决策规则是在每个分配权重,我。e。,最终预测是这些决定的加权组合规则SOFTMAX。升级方法(助推)被用来选择适当的决定规则。最终,这些规则将通过的两层前馈神经网络被嵌入在尺寸1024,和非线性变换的空间。

\

  为了达到最佳效果,笔者最终预测三种方法集成。

  守法,并没有太大的惊喜

  本文根据我的理解,是谷歌在电子病历的建模分析,笔者阵容第一篇文章是很豪华。文章写守法,并没有太多的惊喜。综上所述,我们可以看到从文章如下一些有趣的观点。

  首先,数据是规模非常有限。尽管作者使用加州大学旧金山分校和UChicago数据集,但是,患者人数总共才11万。这笔款项数以亿计的数据有着天壤之别的其他领域。在这些情况下如何有效地培养了深厚的学习模式有很强的推广还是个问号。在以前的研究作者,过度拟合是一个非常普遍的问题。我们发现了一些常见的神经网络的方法,以避免过多(例如差)配合,也不是在这种情况下是特别有效的。

  二,模型的互操作性弱。上提到的文章一升上来,作者用FHIR标准的电子病历,电子病历的映射,而无需标准化和规范化。说实话,我写在这里确实让有些不解,在我看来只是为分类标准的电子病历事件FHIR,什么事件,或什么事件。这样上训练的数据模型,在所述第二数据或不能使用。作者也说,这是他们的模型的限制,文章还对加州大学旧金山分校和UChicago数据集人才培养模式是好或坏的评价结果。所以这种情况下,数据的标准化仍然是必要的关键步骤,或如何确保互操作性模型?

  纸插图:研究,医疗数据进行处理,放置在时间顺序,这种治疗是不统一的或标准化的,但它映射到相应的资源,它们是用来预测深度学习模型数据相同。

  第三,提高效果是不是很兴奋。为什么这么说?AUC提升0.1,在绝对值方面着实不小,但我们要看看基线,也就是说,跟谁比。从算法的角度来看,我们选定的基准线是弱。当然,这是可以理解的,因为这些方法都是基于实际的临床决策的基础,他们大多是有章可循的,而且已使用多年,但本文所要强调学习可能造成的影响的深度在生产现代中药,因而他们更。然而,从另一个角度看,也有许多非深入学习机器学习方法,本文展示的深度学习算法的优势,我们认为,应该选择一些机器学习方法作为基准。此外,这些方法在临床上使用,前面提到的互用性,下文中,和解释性都很强,这是短板学习方法的深度。

  四,模型解释性弱。作者也承认这一点,并提出了一套方法的归属(署名)来试图解释的学习模式。然而,正如作者说,笔者做的归属只是基于模型(前馈神经网络)和一个类型的数据(例如,只关注诊断或药物)。

  五,功能非常强大的计算资源。在文章的超参数模型提到的作者是自动调整从谷歌大臣产生,GPU花费的时间比200000小时。

  电子病历的分析,很长的路要走

  当然,上面的一些共同的挑战和电子病历数据分析提出的观点,谷歌的文章再次印证了这些问题是不是很容易被轻松化解,这是给我们指出了克服困难。有一些挑战,比如如何评估数据的质量,如何将数据隐私保护等等,因为本文以及不同的重点,并不在这些问题触及。

  当然,很高兴看到谷歌也开始注重电子病历数据分析证实,这的确是一个有意义的方向。这篇文章是在谷歌的第一篇文章与这些顶尖的医疗学校工作,我认为更深层次的合作,并正在进行研究,让我们拭目以待。同时,根据这篇文章,我猜的结构和措辞应该是投资于发表在医学类,我也很期待文章的最终归属顶部的文章,因为它也反映了一个从医学界承认这种研究的程度一定程度。

\

这篇文章最早出现在公众微信号码:新智元。文章的内容是个人的意见,并不代表位置和信息网络。因此投资者风险自负操作。

本文链接:谷歌与全球顶级医学院联手,Jeff Dean等扛鼎首篇电子病历论文,康奈尔大学王飞解读

上一篇:赵宏伟弑旧主助同曦取胜 CBA后卫助威老东家

下一篇:赵建华携百年老琴亮相

友情链接:

佛经大悲咒 心经 佛教典籍

Copyright © 2017 有氧运动网 版权所有 All Rights Reserved. 网站地图

苏ICP备18043316号