北京中医药
    主页 > 期刊导读 >

面向中医药领域的文本情感分析及研究

1 概述

中医药文化博大精深,是我国传承了几千年的国粹瑰宝,中医对中国人民的健康,甚至是人类的健康都有重大的贡献[1]。中医它的治病方式和其良好的治疗效果,广泛传播、应用于世界各地。但因西医技术的引入、外来文化的冲击,其影响能力和医学价值受到了挑战。本文针对问卷调查人们对中医药的接受程度,前期工作费时费力的问题,采用自然处理技术对网上文本进行情感分析,可以直接获取评论者对中医认同度的情感倾向,直观快速反映出人们的态度。

2 数据分析

随着信息时代的进步与发展,人们在网络上陈述自己观点和情感的比例逐渐上升,使用微博的用户规模猛增、月活跃数早已突破4亿人次,微博已成为表达个人情感和观点的重要媒体。结合微博短文本、数据易获取、实时性、信息来源多样性等特点,人们的观点可以一目了然具有代表性。因此以微博的评论对中医药进行情感喜好的分类研究十分有意义[2]。

2.1 数据来源

本文利用python及爬虫技术爬取新浪微博的数据,通过设置“中医”“态度”“观点”等关键词获取网民2015年1月-2019年5月间发表的动态、文章、评论等内容。

从微博获取的原数据共条,其中2015年条,2016年条,2017年条,2018年条、2019年条。由于互联网文本数据中包含了大量噪声,此类噪声会影响文本正确分类结果,因此对数据预处理文本后的数据有条,其中2015年 条,2016年条,2017年条,2018年条、2019年条。

结合Qiu[3]等设计情感词库:HowNet[4]情感分析用词集(beta版)、台湾大学NTUSD简体中文情感词典以及网上大量的情感词。通过人工删除不符合本领域的情感词。结合TF-IDF得出本领域较高频次的词但在词典中得词,利用Word2vec算法根据分完类的词典求得本领域中的相似词,挑选在领域中有意义的情感词进行情感词扩增。最终得到积极词汇3960个,消极词汇4046个,否定词268个,程度副词212个、转折词13个。

2.2 数据预处理

本文规范数据标准如下:

(1)删除微商卖中医药广告信息、中医药用法介绍等客观或无关的数据;

(2)删除同一人发布多条相同内容的数据,仅保留一条;

(3)删除文本字符过长的信息;

(4)删除格式错误的信息。

去除文本中噪声方式如下:

(1)删除文本中经过转换编码仍不能识别的字符(格式:\u00x)、回复消息(格式://@某人:)、超链接URL(格式:“http://”)、特殊表情和网页标签等;

(2)采用Jieba分词技术,自定义停用词、词库,对于中医药领域需要的单词,增加本领域词如“中医黑”,删除词性标注中不能识别或不能使用的词。

分词及词性标注见表1,自定义词库及停用词分词结果展示见表2。

2.3 数据分类统计

本文的训练数据由一人评判两人审核的方法评判了认同、反对中医药倾向的数据各1500条,保证训练与测试数据的准确性。中医药有关文本分类划分原则如下:

(1)采用二分划分,分为认同中医药倾向和不认同中医药倾向两种态度;(2)选取文本中含有明显有关中医药感情词划分为对中医药的认同度倾向;(3)对无感情词但采用中医药治病或转发中医药的相关文章划分认同等级;(4)举行中医药活动达到宣传作用划分为认同倾向。

表1 分词及词性标注?

表2 自定义词库及停用词结果展示?

本文对二类划分采用准确率、F1-score作为评价标准。计算公式如下所示:

表3 词典分类的句式构成?

图1 基于词典算法流程图

其中TP为支持中医药,被正确划分的文本;FP为支持中医药,被错误划分的文本;FN为反对中医药,被正确划分的文本;TN为反对中医要,被错误划分的文本。

3 算法应用研究

3.1 基于情感强度的词典分类

基于词典的方式本文采用的是基于句子级别的分析。根据中文的语法格式,提取本文的需要的句子语法格式是由积极、消极情感词、否定词及程度副词等3种词组成[5],并分别给三种词汇设置不同的情感强度判定认可程度。此外句子中还包含连词以及转折词,对于连词的形式分数累乘,当出现转折词时,转折词前面分值计算方式不变,转折词后面情感分值加倍。句式划分见表3。

图1为基于词典算法流程及流程图的简单介绍: