Extracting and Evolving Traditional Chinese Medicine Themes Based on Text Mining
This article explores the research topics in the field of traditional Chinese medicine over the past 30 years, summarizes the mainstream, changes, and evolution of traditional Chinese medicine research topics, crawls master’s and doctoral theses and authoritative journals in the field of traditional Chinese medicine, divides time periods to analyze research directions and methods, and uses word cloud maps, word frequency statistics, and LDA topic models to analyze research topic hotspots. Analyzing master’s and doctoral theses and journals in the field of traditional Chinese medicine, 14 main research topics were ultimately integrated. The master’s and doctoral theses mainly focus on signal pathways, including traditional Chinese medicine and diseases; China Journal of Chinese Materia Medica focuses on research and statistical analysis of traditional Chinese medicine; and Journal of Traditional Chinese Medicine focus more on the diagnosis and treatment of specific diseases. The LDA topic model can effectively explore research topics in traditional Chinese medicine literature, and 80% of them can be validated by relevant literature reviews in the field.
Text Mining
文本挖掘是对意义丰富的文本进行分析,理解其内容和意义的过程。深入研究可以提高人们从大量文本数据中提取信息的能力。随着计算机技术的快速发展,文本挖掘技术取得了巨大的发展,逐渐成为了一种主流方法
在国外文本挖掘技术研究中,Masanori Hirano等
LDA模型被用于经济领域
中医药是最具代表性的中国元素,中医药的发展和传播也是中国传统文化复兴的重要体现。中医药学在恶性肿瘤治疗方面也有着悠久的历史,是国内肿瘤治疗的关键组成部分。将文本挖掘技术应用到中医药学领域中对分析中医药学的研究主题及趋势有着重要意义。由于在中医药学领域的主题探索较少,本文借助LDA主题模型对中医药学领域硕博论文及高水平期刊进行主题提取,分析主题内容,更深入地了解中医药学领域的研究热点。
获取在中国知网(CNKI)上中医药学有关的硕博论文和高水平期刊的文献。通过网络爬虫获取数据,文献数据主要由两部分组成。
因2000年之前论文数据存在空白,选取2000~2022年CNKI上的中医药学领域的学位论文。数据包含中文题目、作者、学位授予单位、学位、学位授予年度、摘要和关键词,共25,017篇文献。选取1993~2022年中医学中影响因子最大的《中医杂志》,中药学中影响因子最大的《中国中药杂志》并且被SCI和北大核心收录的文献。期刊文献数据包含题目、作者、发表时间、摘要和关键词等,共36,630篇文献。本文对数据进行预处理,包括期刊及论文的筛选、术语统一化处理、自定义分词词典。
1) 删除不相关的会议和信息缺失的文献。期刊文献中包含会议通知、新闻等与中医药学研究无关的文章,需要爬取数据后删除;由于摘要和关键词对文献分析至关重要,因此对缺失摘要和关键词的文献给予删除。
2) 对标准术语进行统一化。
3) 文本分词。在词汇表中添加新词,创建一个自定义的分词词典以获得更好的分词结果。
4) 去除停用词,参考停用词表和自添加停用词构建停用词词典。
图1. 论文和期刊文献变化趋势图
由
由
由
统计词语词频可以反映出在一篇文章中出现的频率。对论文和期刊关键词进行词频统计。
2000~2012年 |
2013~2017年 |
2018~2022年 |
|||
关键词 |
词频 |
关键词 |
词频 |
关键词 |
词频 |
化学成分 |
559 |
质量标准 |
314 |
化学成分 |
269 |
质量标准 |
552 |
化学成分 |
310 |
质量标准 |
260 |
指纹图谱 |
316 |
指纹图谱 |
226 |
MS |
211 |
临床研究 |
313 |
临床研究 |
218 |
代谢组学 |
206 |
制备工艺 |
255 |
含量测定 |
187 |
网络药理学 |
198 |
含量测定 |
183 |
MS |
179 |
指纹图谱 |
179 |
临床观察 |
172 |
制备工艺 |
170 |
含量测定 |
150 |
高效液相色谱法 |
263 |
HPLC |
130 |
肠道菌群 |
145 |
HPLC |
147 |
针刺 |
120 |
制备工艺 |
119 |
针刺 |
147 |
药代动力学 |
116 |
作用机制 |
119 |
结构鉴定 |
123 |
抗氧化 |
114 |
质量评价 |
107 |
药效学 |
114 |
抗肿瘤 |
107 |
氧化应激 |
104 |
提取工艺 |
99 |
电针 |
102 |
药代动力学 |
88 |
镇痛 |
96 |
中医证型 |
87 |
质量控制 |
83 |
黄酮 |
92 |
质量控制 |
86 |
UPLC |
79 |
提取 |
82 |
代谢组学 |
76 |
NF |
79 |
人参 |
80 |
临床疗效 |
76 |
抗肿瘤 |
77 |
中医证型 |
80 |
提取工艺 |
73 |
PI3K |
73 |
质量控制 |
79 |
细胞凋亡 |
70 |
抗氧化 |
70 |
合成 |
73 |
数据挖掘 |
69 |
抗炎 |
68 |
由
1993~2002年 |
2003~2012年 |
2013~2022年 |
|||
关键词 |
词频 |
关键词 |
词频 |
关键词 |
词频 |
高效液相色谱法 |
75 |
化学成分 |
526 |
化学成分 |
467 |
化学成分 |
72 |
HPLC |
321 |
MS |
403 |
含量测定 |
68 |
中药 |
165 |
网络药理学 |
218 |
HPLC |
60 |
高效液相色谱 |
156 |
UPLC |
188 |
炮制 |
49 |
含量测定 |
142 |
含量测定 |
171 |
挥发油 |
45 |
黄酮 |
119 |
HPLC |
161 |
薄层扫描法 |
28 |
指纹图谱 |
117 |
指纹图谱 |
157 |
高效液相色谱 |
27 |
MS |
101 |
Meta分析 |
142 |
薄层扫描 |
21 |
色谱 |
89 |
作用机制 |
135 |
中药 |
20 |
大鼠 |
80 |
分子对接 |
117 |
气相色谱 |
20 |
挥发油 |
80 |
质量控制 |
115 |
黄芪 |
19 |
细胞凋亡 |
69 |
系统评价 |
114 |
黄连 |
19 |
丹参 |
64 |
黄酮 |
106 |
药用植物 |
19 |
凋亡 |
64 |
代谢组学 |
98 |
齐墩果酸 |
18 |
半夏 |
49 |
药理作用 |
91 |
黄酮 |
18 |
药用植物 |
49 |
丹参 |
86 |
多糖 |
18 |
甘草 |
48 |
研究进展 |
81 |
本草考证 |
16 |
质量控制 |
48 |
主成分分析 |
79 |
镇痛 |
16 |
生物碱 |
48 |
药代动力学 |
78 |
生物碱 |
16 |
三萜 |
46 |
随机对照试验 |
78 |
由
1993~2002年 |
2003~2012年 |
2013~2022年 |
|||
关键词 |
词频 |
关键词 |
词频 |
关键词 |
词频 |
中医药疗法 |
1416 |
中医药疗法 |
903 |
名医经验 |
486 |
中药疗法 |
189 |
名医经验 |
221 |
冠心病 |
103 |
治疗应用 |
149 |
中西医结合疗法 |
103 |
新型冠状病毒肺炎 |
101 |
针灸疗法 |
94 |
诊断 |
77 |
中医药疗法 |
89 |
名医经验 |
93 |
参芪五味子片 |
70 |
针刺 |
73 |
药物作用 |
91 |
治疗应用 |
69 |
随机对照试验 |
70 |
诊断 |
82 |
证候 |
66 |
肿瘤 |
69 |
并发症 |
77 |
针灸疗法 |
64 |
中医证候 |
69 |
中西医结合疗法 |
77 |
药物作用 |
60 |
黄帝内经 |
66 |
肝炎 |
62 |
辨证分型 |
57 |
慢性阻塞性肺疾病 |
64 |
代谢 |
52 |
糖尿病 |
57 |
辨证论治 |
62 |
病理学 |
50 |
辨证论治 |
55 |
恶性肿瘤 |
58 |
血液 |
47 |
针刺 |
53 |
糖尿病 |
56 |
中医病机 |
47 |
中医证候 |
49 |
生活质量 |
54 |
糖尿病 |
46 |
伤寒论 |
44 |
伤寒论 |
54 |
药理学 |
44 |
并发症 |
44 |
2型糖尿病 |
54 |
病因学 |
42 |
经验 |
43 |
抑郁症 |
51 |
辨证论治 |
42 |
冠心病 |
42 |
文献研究 |
49 |
慢性 |
39 |
中医病机 |
40 |
炎症因子 |
49 |
胃炎 |
39 |
高血压 |
40 |
真实世界研究 |
48 |
由
本文利用Python中的Gensim库训练LDA主题模型,主要涉及到三个参数α、β、K,参数α、β分别是文档–主题分布的先验参数和主题–词分布的先验参数,在训练LDA模型时将这两个参数设置为auto,Gensim通过迭代自动选择最优参数值。最优主题数K通过计算困惑度确定,不同主题数对应的困惑度如
随着主题数的增大,困惑度逐渐减小。根据手肘法和测试结果,硕博论文、《中国中药杂志》、《中医杂志》的主题数分别选取8、10、10时最佳。
分别对硕博论文、《中国中药杂志》和《中医杂志》建立LDA主题模型。(见
Topic |
与主题相关最高的词汇 |
1 |
细胞 检测 蛋白 诱导 基因 实验 药物 活性 肿瘤 通路 调控 分子 靶点 |
2 |
制剂 条件 指标 实验 工艺 乙醇 药材 质量标准 影响 处方 颗粒 复方 中药 |
3 |
化合物 植物 提取物 甘草 实验 羟基 葡萄糖 结构 活性 中药 甲基 甘草酸 |
4 |
大小鼠 模型 剂量 血清 对照组 检测 实验 空白 灌胃 显著性 造模 肝脏 阳性 |
5 |
临床 中药 文献 发展 理论 数据库 教授 基础 系统 附子 茯苓 白术 方剂 |
6 |
含量 成分 质量 饮片 植物 品种 产地 吴茱萸 炮制 挥发油 中药材 种子 栽培 |
7 |
人参 黄芪 滴丸 川芎 实验 色谱 越橘 花色素 栀子 检测 柱温 天麻 苦参 |
8 |
患者 差异 对照组 疗效 症状 有效率 临床 显著性 疗程 针刺 检验 试验 |
中医药在临床上的分析、中药理论发展、数据库文献分析等。6) 中药材种植及含量测定:主要涉及到中药材种植,成分差异等,研究药材植物品种的差异和培育技术对药效的影响。7) 中草药分析研究:主要涉及到中草药实验,包括人参、黄芪、川芎等,使用色谱分析法检测中草药成分等。8) 患者临床治疗差异评价:主要涉及到患者疗效、症状改善、对照组比较等,总结临床实践经验。
Topic |
与主题相关最高的词汇 |
1 |
小鼠 对照组 剂量 血清 影响 胶囊 模型 肿瘤 显著性 肾脏 红细胞 灌胃 实验 |
2 |
化合物 羟基 植物 甲氧基 波谱 吡喃 黄酮 谷甾醇 甲基 硅胶 光谱 凝胶 色谱 |
3 |
中药药材 分析 药用植物 技术 中药材 文献 资源 研究所 综述 系统 传统 研究进展 |
4 |
含量 挥发油 甘草 多糖 差异 药材 质量 甘草酸 白芍 法测定 栽培 吴茱萸 指标 |
5 |
中药药物 复方 制剂 临床评价 处方 成分 中成药 组分 粒径 效应 疗效 实验 脂质体 |
6 |
基因 半夏 人参 培养基 诱导 序列 土壤 蛋白质 地黄 分化 蛋白 皂甙 遗传 |
7 |
提取物 黄芪 药材 丹参酮 检验所 口服液 水蛭 本草 党参 成分 四物汤 花粉 |
8 |
检测 色谱 药材 流动 波长 甲醇 乙腈 梯度 柱温 线性 磷酸 面积 质谱 苦参碱 |
9 |
条件 时间 温度 指标 工艺 乙醇 浓度 炮制 用量 饮片 实验 附子 提取液 |
10 |
大鼠模型 细胞 含量 检测活性 诱导 剂量 对照组 血清 蛋白 灌胃 阳性 脑组织 实验 |
甲氧基、甲基等。3) 中药研究与发展:主要涉及到中药药材研究,通过文献分析采用的技术与研究进展。4) 药材质量分析:主要涉及到中药药材的质量、含量测定、分析其中的指标等内容。5) 中药药物评价:主要涉及到中药药物、中成药等在临床上的使用评价,通过实验分析其疗效。6) 植物基因工程:主要涉及到诱导基因改变序列、改变蛋白质结构、分化等,研究植物的生物学特征及遗传基因的影响。7) 中草药提取与制剂:主要涉及到提取中草药有效成分,熬制提纯后对疾病有预防作用。主要的中药药材有黄芪、丹参、本草等。8) 色谱分析:主要涉及到色谱分析药材成分实验,分析波长、柱温及面积等。9) 中医药药材炮制工艺:主要涉及到中医药炮制工艺的条件,包括时间、温度、中药材的浓度、质量等。10) 大鼠实验模型:主要涉及到使用大鼠进行实验,诱导基因蛋白变化进行分析活性,常分析的部位为脑组织。
Topic |
与主题相关最高的词汇 |
1 |
研究方法 文献检索 冠心病 数据分析 数据库 评价 标准 症状 指标 临床 方案 针刺 |
2 |
理论发展 临床 疾病 人体影响 分析 过程 功能 针灸 黄帝内经 内涵 系统 传统 中医 |
3 |
模型 大鼠小鼠 剂量 灌胃 检测 血清 对照组 空白 造模 蛋白 浓度 手术 细胞 |
4 |
患者 疗效 临床表现 年龄 报告 病例 性别 皮肤 症状 头痛 医院 资料 门诊 |
5 |
中药西药 基因 细胞 复方 黄芪 调节 附子 靶点 调控 神经 疗效 儿童 受体 制剂 通路 |
6 |
患者 糖尿病 化疗 症状 高血压病 年龄 血压 肺癌 高血压 舌苔 性别 比例 艾滋病 |
7 |
药物 临床 方剂 活血益气 疗效 健脾 黄芪 甘草 温病 通络 白术 伤寒论 茯苓 |
8 |
肿瘤 教授 临床经验 激素 胃癌 肝癌 黄疸 肝硬化 高脂血症 妇科 肝脏 肝病 |
9 |
疾病症状 气血 病因 病理 血瘀 瘀血 脾胃 气虚 肾虚 脏腑 脾虚 气滞 论治 |
10 |
对照组 患者 差异 有效率 疗效 疗程 指标 症状 显著性 针刺 血清 评价 |
由词云图、关键词词频分析和LDA主题模型的结果可以看出,三种文献有许多共同主题,将主题合并分析得出,中医药学领域的14个重要主题,具体主题见
主题编号 |
研究主题 |
研究方法 |
研究内容 |
1 |
动物实验研究 |
大小鼠造模 化学因素刺激法 |
肾脏、肝脏、心脏细胞、神经元等 |
2 |
药物质量标准分析及制备 |
HPLC UPLC 指纹图谱法 |
药材成分、含量、质量差异; 色谱分析法分析药物成分 |
3 |
基因分析与应用 |
细胞模型 中药靶点 肿瘤基因诱导 |
基因测序,分析蛋白结构; 基因调控肿瘤细胞,多靶点抑制杀伤肿瘤细胞 |
4 |
中医药的临床研究 |
针刺法 对照试验 |
疾病诊断、药效和药理研究; 黄芪、甘草、茯苓、白术、白芍、附子等中药在临床上的应用 |
5 |
文献研究 |
数据库分析 |
文献和数据库的信息检索,分析研究方法和目的 |
6 |
活性成分分析 |
分子生物学 化学分析法 |
荧光染色细胞检测,分析肿瘤细胞 植物化合物成分活性分析 |
7 |
中药种植与环境影响 |
对照试验 |
中草药植物的栽培条件探索 |
8 |
患者特征及医疗研究 |
病例对照分析 随访研究 |
药物对患者的疗效,症状改善 |
9 |
中医辨证及理论应用 |
辨证分析 整体思维 |
教授传授经验理论; 《黄帝内经》基础理论; 主要应用于肿瘤、糖尿病、脾虚、冠心病、肺癌、肾虚、高血压等 |
10 |
信号通路 |
PI3K通路 MS通路 Wnt通路 |
抗炎症; 抗肿瘤; 免疫功能 |
11 |
药代动力学 |
分子对接 放射性同位素追踪 |
药物在体内的分布,代谢 |
12 |
网络药理学 |
网络建模 药效实验 数据库分析 |
药物副作用; 活性成分作用靶点预测 |
13 |
统计学方法应用 |
主成分分析 因子分析 Meta分析 随机对照实验 |
遗传基因; 临床试验; 药效评估 |
14 |
新型冠状病毒肺炎 |
临床分析 |
连花清瘟防治新冠肺炎; 患者临床疗效 |
本文以中医药学论文、期刊文献为源数据集,通过词云图,关键词词频分段分析中医药学的研究方向与方法。运用LDA主题模型进行可视化及聚类分析,结合困惑度确定模型最优主题数,挖掘出14个潜在主题,并对主题内容细致分析,主要包括动物实验研究、药物质量标准与分析、基因分析与应用、中医药的临床研究、药物制备、活性成分分析等。通过查阅中医药学领域的综述性文献
本文的不足之处在于选取数据集时只选取了近30年数据,并且仅仅考虑了中医药领域的个别专业期刊,主题挖掘可能不全面,如蛋白质组学、红外热成像技术、骨质疏松等主题未被挖掘出来,无法展示中医药领域的全部研究主题和发展方向。需考虑扩大数据集进行分析,进而充分了解中医药领域的发展现状;对于主题发现,由于LDA主题模型不能够对主题命名,需人工总结主题,对一些主题的命名解释缺乏专业性,后续希望通过查阅更多资料和咨询专业研究者使得对主题模型的结果解释更加合理化。
*通讯作者。