万博体育mantbex手机版|欢迎您

English | 简体中文 400 821 3659 | info@meehealth.com

医疗健康大数据之管见(上)

2017-08-01  来源:《世界医疗器械》  


作者:张继武 2017年3月发表于《世界医疗器械》专刊 (如引用此文,请注明出处,谢谢。)


 
(一) 大数据神话

      “大数据”,如此炙热,大有“得数据者得财富”,甚至“得数据者得天下”之势。
       大数据时代来了,各个垂直领域人人在谈大数据,仿佛一提大数据,什么问题都解决了,人工智能、认知计算,各种疑难杂症、健康预测、科学管理、金融、商业等领域的问题,在大数据应用面前都迎刃而解。
       大数据如火如荼,医疗健康大数据更是作为民生发展的重点,受到国家重视、产学研医青睐。今年,国家发改委立项组建“医疗大数据应用技术工程实验室”,准备立项一家,申报单位达到18家,基本包括了国内该领域的各个重点院校科研院所研究机构医院企业,领军人物多由院士担纲,可见医疗大数据在我国的重视程度。
       同时,国内关于医疗、健康大数据的会议密集,仅2017年11月和12月,在北京、在广州、在上海,医疗大数据的专场会议很多场,在所有与卫生、医疗、健康相关的国内国际会议上,大数据都是一个重要专题。在2017年8月,由卫计委和中国电子牵头的“医疗健康大数据联盟”成立,盛况空前。而各个上市公司更是把自己的概念与大数据挂钩,以期获得充分的市场价值认可。
        尤其是投资机构、基金经理、上市公司,都非常感兴趣。最为经常的问题是“你能够获得大数据吗?”,“有一家信息化厂商,说能够获得大数据,是不是值得投入?”,“有一个团队说有运作大数据的商业模式,是否值得投入”,“我们在做人工智能方面的研究,可以针对医学图像进行自动诊断,你们是否愿意投资”,“我们建立了一个第三方影像托管中心,我们将会有大数据”。
       在这里想阐明一个简单的逻辑,当一个对社会具有巨大影响的系统或者方式存在的时候,其回报可能会很大,其投资周期也会很长,譬如facebook,改变了人类的社会交流形态关系,但是到现在也还在投入期,只有对其长期发展看好的机构才会不断投入。同时,能够产生如此重大社会影响的必需构成一个生态圈,这种生态圈要么是自上而下,做好完美顶层设计,进行推广实现;要么是自发产生,经过血腥拼杀,如阿里巴巴最重胜出,形成生态环境。无论哪种路径,形成生态环境是需要海量资金,并且持续以短跑的速度跑长跑的距离的创业牺牲精神才可以实现。因此,大数据带来巨大商机,但是必须要有巨大和长期的投入。
       大数据,百度百科给出的定义是“大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。”IBM则提出大数据的5V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。
        大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。一些本领域的公司推出不同的概念,譬如最为竭尽全力的是IBM推出“认知计算”的概念,积极开发了商业应用“Watson”。Google 则利用大数据机器学习(Deep Learning)开发出AlphaGo,在2017年3月与韩国著名棋手李世石进行了人机围棋世纪大战,并以机器胜出赢得全球对于人工智能发展的热议和再度重视(对于人类未来乐观和悲观的预测都沸沸扬扬)。


 
1.1当前医疗大数据相关的常见话题包括
1.1.1 大数据带来的影响(社会变化)
  • 大数据与社会成本(医疗费控)
  • 大数据与社会质量(诊疗规则、医疗质控、辅助诊断)
  • 大数据与精准医疗
  • 大数据与健康管理
  • 大数据与统计、报警、预警、预测
  • 大数据与保险
1.1.2 大数据科研与应用
  • 大数据的数据获取、数据建模
  • 大数据与物联网
  • 人工智能,机器学习,认知科学
  • 大数据与养老
  • 大数据应用实例
  • 大数据系统设计经验
  • 大数据与可穿戴设备
  • 大数据与移动医疗
1.1.3 相关问题
  • 隐私安全
  • 标准
  • 社会管理(数据的拥有权、使用权等)
1.2目前美国在医疗行业内开展大数据应用的5个领域(来自网络文摘)
1.2.1 临床治疗
a) 比较效果研究
b) 临床决策支持系统
c) 医疗数据的透明化。
d) 远程病人监控
e) 对病人概况的高级分析
1.2.2 支付与定价
a) 支付欺诈与保险赂付自动检查系统
b) 以医疗经济学和治疗效果研究为基础的定价计划
1.2.3药品研发
a) 预测建模
b) 运用统计工具和算法改进临床试验的设计
c) 对临床试验的数据进行分析
d) 个性化用药
e) 疾病模式的分析
1.2.4新型商业模式
a) 病人临床数据与保险赔付数据集合的聚集与同步
b) 网络社区平台
1.2.5公共卫生
a) 大数据的使用可以促进公共卫生监督与响应。

(二) 大数据应用的工程技术关键

       大数据的现状令人想起老鼠给猫挂铃铛的故事:老鼠们开会讨论对付猫的办法,提出一个好办法,给猫的脖子上拴一个铃当,当猫走近的时候,老鼠就可以听到铃声,就可以逃跑了。每个老鼠都同意这个建议,但是一只老老鼠站起来说:那谁去给猫戴上铃当呢?
       大数据的现状很像这个寓言,大家热谈大数据带来的革命性变化,问题是“谁去挂铃铛、怎么挂铃铛”。
       曾经参加过一次全国医疗大数据应用竞赛,参赛选手、评审专家都感叹,缺乏数据,数据质量比较差。
       大数据的应用和研究是多层次的,首先是数据获取、数据建模,然后才是数据处理、分析,获取知识,建立认知,提供应用。



       作为基于大数据应用的人工智能进步的目前最热的范例,AlphaGo下围棋实际上非常取巧。大数据工程技术包括数据获取、数据建模、数据处理与分析、获取知识、建立认知、以友好的方式呈现。当前而言,在大数据实现技术中,所谓的DeepLearning等数据挖掘、知识学习的算法已经成熟,公开发表的科研论文很多。恰恰最有挑战的是如何把显示生活中的数据抽象成模型,或者让数据的内在关联性(知识)更容易被发觉。而围棋,只有黑白两种颜色,横19根线纵19根线,361个交叉点,看起来变化无穷,实际上对于计算机来说是最容易简化建立模型的,唯有计算速度和计算量以及记忆(内存)是一个挑战,但这些对于当今计算技术已经不是问题。所以,AlphaGo的成功恰恰说明,当今大数据应用工程技术的瓶颈问题在于数据获取和数据建模。

       对于我国大数据应用发展,当前要突破发展的策略性考虑是:

2.1解决数据获取和数据建模的瓶颈问题

       我国大数据研究和应用当前的主要问题不是硬件环境建设,而是相应的系统平台和方法学的研究。包括,数据获取关键技术,数据采集互联互通标准的建立和推广;数据质量,包括数据模式,异构数据的管理,数据之间的关联性,数据的时间分布;数据挖掘的方法学中,临床数据的特征参数提取;数据应用,临床数据挖掘的方法学应用于临床辅助诊断的CDSS模式;精准医疗科研等。重点在于:
2.1.2医疗大数据的采集
       大量的数据可以分析出疾病、症状及实验室数据的相关性,从而帮助临床研究人员建立针对某一些典型疾病的预测模型。在医院的诊疗过程中,针对各个科室的特定应用,积累了长期的与特定疾病相关的临床监测参数, 并随着医院的运营过程得到了大量的数据的积累。
同时,随着移动互联网技术和穿戴式医疗设备及技术的发展,通过各种穿戴式设备所获取的用户生命体征,为用户健康数据的获取提供了极大的便利。
一方面,可以通过对这些健康数据进行分析获取用户的健康信息以指导运动、饮食等生活习性;另一方面,与医疗数据的结合可以提高用户疾病诊断的科学性和诊断精度。
2.1.3医疗大数据的分析
       传统医疗行业中, 医院信息系统完成了医院内部的流程控制、数据积累等工作。医疗行业早就遇到了海量数据和非结构化数据的挑战, 而近年来很多国家都在积极推进医疗信息化发展, 这使得很多医疗机构有资金来做大数据分析。医疗数据是医疗人员对病人诊疗过程中产生的数据,包括病人的基本情况、行为数据、诊疗数据、管理数据、检查数据、电子病历等。现代医院中将上述数据存储于医院的各个信息系统之中,是医疗大数据分析的基础。
       医疗健康数据是持续、高增长的复杂数据,蕴含的信息价值也是丰富多样的,对医疗健康数据的有效存储、处理、査询和分析,挖掘其潜在价值,发现医学知识, 将深切影响人类健康水平和治疗手段。在传统的医学统计方法的基础上,新的模型与技术的出现,为从数据中获取新知识提供了新的思路。
       医疗健康数据挖掘进行健康信息数据分析常用的方法包括分类、回归分析、聚类、关联规则、特征分析、变化和偏差分析。针对不同的类型的病人对不同类型的生理数据、健康感知数据进行推理判断, 大数据分析技术实现了服务临床治疗、预测疾病发病情况、跟踪病人病情等目的。
2.1.4医疗大数据的应用
       医疗行业的传统数据应用具有重要的参考价值, 必须明确的是大数据的发展是建立在己有的技术基础、数据积累之上的拓展。新的信息分析技术和通讯技术为传统的医疗网络应用和数据分析带来了新的思路。
      在对用户的诊疗数据、健康监测数据的釆集和分析的基础之上, 可以实现用户身体状况的预测、监控,甚至可以确定用户是哪一类的疾病的易感人群。提高用户的健康状况水平,降低用户的患病风险。精准分析包括病人体征数据、费用数据和疗效数据在内的大型数据集, 可以帮助医生确定临床上最有效和最具有成本效益的治疗方法。医疗护理系统将有可能减少过度治疗,比如避免副作用大于疗效的治疗方式。

2.2 急危重症科室有可能在大数据获取和应用方面率先突破

       一开始就覆盖所有病种是不现实的,工作量也远远超出一个重点实验室初期可以完成的范围。选择特殊病种(如心血管疾病、包虫病)能够比较集中地充分研究大数据的应用和工程实践,建立一个高质量的数据平台。选择一些典型科室,如急诊、重症科室,一来这是当今我国新医疗环境条件下急需提高的科室,是各种常见病、多发病的入口(大部分心血管、脑梗患者进入医院的第一个环节都是急诊科),也是最救命的科室,也是各类检查最为健全的科室(各种生命参数、各种检测设备、影像信息等),而且,急诊科、重症科的特殊性,使得其记录的数据都具备时间信息,连续记录,并且治疗结果在短期内都有一定的明确评估,所有这些,使得这些科室的数据具有数据量大,各种不同临床数据能够建立很好的对应关系,具备一定的时间连续信息,并且有可能以诊疗结果作为验证。数据质量非常好。
       首先,急危重症科室是生命体征数据最丰富、数据量最大的科室之一,以重症监护室为例,患者的电生理数据(心电、脑电)、血压、血糖、血常规、甚至患者的影像数据(CT、MRI等)都会不断地被检测,仅电生理信息,每一个患者每天产生几十万条数据;


 
       其次,急危重症科室是数据的相关性最强的科室,患者的检测之间具有强烈的对象相关性,同一时刻统一患者的血压、心率、出入量,具备大数据互相关的特性;
       再次,急危重症科室的数据具有更大的复杂性,鉴于急危重症科室各种典型病例以及并发症的发生,使得获得的数据所针对的疾病状态具有复杂的组合关系;
       第四,急危重症科室的数据具有更强的时间价值,一半科室获得的数据都缺乏时间意义,而进行慢病记录,完成大量数据记录需要十年的时间(目前美国有相关项目进行十年的跟踪记录)。实际上,一个人的随时间变化的信息比统计意义(循证医学)的信息更具备大数据研究的价值,2015年4月期,Nature发文“Personalized medicine: Time for one-person trials”,强调一个个体的时间序列信息比大量人群的统计信息对于个性化医疗更有意义。长期跟踪,如十年的慢性病跟踪研究具有重要意义,同时也是耗费巨大,可实现性具有挑战,而且要很长时间才能够积累足够的数据形成大数据,进行大数据研究,提炼出规则。急危重症科室,却恰恰在很短的时间内记录大量的数据,沿着时间轴,因此有可能更快地测试各种大数据研究算法和成果,显性成果。


 
       第五,急危重症科室的疾病和诊疗结果能够具有很快的确切结果,包括诊断意见,以及治疗结果,这些因变量的存在,有助于大数据研究。

       近来有一个很好的例子,美国麻省理工学院(MIT)构建的多参数智能重症监护数据库(Multiparameter Intelligent Monitoring in Intensive Care-MIMIC)是一个成功的例子。他们就是以急危重症科室作为切入点,长期积累了60,000病例,进行大数据研究,是目前国际上少有的具有规模和质量的医疗大数据。以此为基础,他们在Science、Nature、柳叶刀等重要杂志发表了很多重要文章。






 
Baidu
sogou