北京中医药
    主页 > 期刊导读 >

中医药大数据平台的构建

1 概述

1.1 中医药数据来源和分布

大数据平台构建的核心是数据,中医药数据广泛分布在中医药领域。古典著作经过现代学者研究引申,形成今天的电子文献。然而促动中医发展的数据更多是在临床诊疗过程形成的。中医根据望闻问切,通过舌苔,脉象,面相,主诉,辩证地确定患者病情,通过病例把数据保存下来。最后就是现代化社会产生的信息。包括患者的行为,社交网络,摄像头、传感器等产生的数据。

1.2 中医药与西医——大数据特点

中医与西医有着不用的思维模式,数据特点上有很大差别。具体表现在如下几个方面:

1)数据类型不同。中医诊疗依靠医生望闻问切,根据辩证开具处方,中医数据基本上为文本类型的数据。而西医对疾病的确诊依靠的是各种检查仪器,以及病理检测等,数据类型呈现多样化。包括文本型,数字型,图像型,音频,视频等。

2)数据的规范化程度不同。由于中医自古以来没有机构进行统一的规范和整理。对于症状,药名等术语的规范性不够。出现一症多名,一药多名等情况。而西医的规范化程度相对较高,对于病名,药名,以及各项指标单位等都有一个统一的标准和规范。

3)数据的量化程度不同。中医的数据强调整体[1],记录为属性性数据,比如,舌面黄,苔白,脉沉等,是定性的指标,量化程度低。而西医的检查数据强调具体。多为各项理化生理指标,比如血常规,肝肾功能等。数据的量化程度高。

4)数据单位大小不同。中医的数据主要是文本类型,所以中医的单位数据占用的存储空间小,是KB级别。而西医的数据包括CT图像,B超图像,基因组序列等,单位数据占用数据达到MB,甚至GB级别

5)数据价值密度不同。价值密度体现在单位密度的数据中能挖掘的价值大小。中医文本型数据的类型单一和占用存储空间小的特点,使中医相对于西医数据挖掘更加容易。而西医数据类型多样化[2],文本,声音,图像,视屏等,导致数据复杂,连通性降低,数据挖掘困难,单位数据量挖掘价值量低。

6)数据的完整性不同。中医数据主要来源为电子处方,记录的数据大多为病型,症状,药方等数据,对于问诊和病史等病例记录较少。而西医的数据涵盖了各种检查,治疗方法,而且对患者的问诊数据着重记录,包括一般项目,主诉、现病史、既往史等。记录的数据较为细致、完整。

2 平台构建

2.1 中医药大数据平台构建

中医药领域学术观点及思想来源主要有四个方面:个人经验、个人实践、师徒关系传承、学科发展和传承,然而四种方式信息处理和传播速度缓慢,难以满足社会对中医药知识的需求。因此需要构建庞大的临床数据库,使得数据持续地产生,对诊疗的数据动态处理,分层管理,最终将数据整体关联,挖掘数据价值,分析辨证论治个体化诊疗方案。通过构建中医药大数据平台,将中医药大数据应用于医院临床,更好地指导中医药临床,传承中医药宝贵遗产。

2.2 中医药大数据平台—数据的持续

建立中医药大数据平台,首先要解决的问题是数据的收集问题,针对这样的问题,可以建立统一的中医药数字化诊疗数据上传平台,平台提供统一、便捷、兼容的上传接口,支持实时文件处理情况查询、上传批次管理以及问题数据回滚。

2.3 数据——质量评估算法

利用中医药大数据平台我们解决了数据的收集问题,然而收集的数据质量如何?是否能够作为大数据研究?针对这样的问题必须采用一套质量评估机制。解决的方法是:利用大数据平台项目采用了高度结构化的电子病历系统[3]。将中医临床电子病历,通过数字化中医临床术语应用系统支撑转化为结构化电子病历。随后根据结构化电子病历制定一套质量判定标准,再利用算法对电子病历进行质量判定。

2.4 搭建三层结构

中医药大数据平台采用的是三层结构,第一层是数据整合层,数据整合层中包括了来自各个不同信息源的各种结构化的数据库。第二层是中间层,是数据计算存储管理层,第三层是应用层。在第一层利用ETL处理:将分散的,异构数据源中的数据等抽取到临时中间层,对数据清洗、转化、装载。中间层利用第一层处理后的大数据分布式Hadoop集群[4],采用分布式存储、流计算、数据挖掘和大数据算法,通过OLAP建模成立一个叫作分析服务的数据集市。最后第三层应用层,大数据平台将按照自己的需要从数据集市提取数据,形成分析报表和决策报告等最终的价值产品。通过搭建这样的三层系统的部署形成低成本高效率的模式。