国内文本挖掘的热点主题和前沿演进 - 基于CNKI收录文献的可视化分析 - 图文

由天下分享时间：2024/5/20 18:26:55 加入收藏我要投稿点赞

Statistics and Application 统计学与应用, 2020, 9(3), 491-497

Published Online June 2020 in Hans. http://www.hanspub.org/journal/sa https://doi.org/10.12677/sa.2020.93052

Hot Topics and Frontier Evolution of Text Mining in China

—A Visual Analysis of the Documents Collected by CNKI

Xin Wang1, Jiangming Shen2, Jiangnan Xu1, Zhiyong Zeng3*

Yunnan University Data Operation and Management Engineering Research Center, School of Statistics and Mathematics, Yunnan University of Finance and Economics, Kunming Yunnan 2

Enterprise Information Department of China Telecom Corporation Limited Yunnan Branch, Kunming Yunnan 3

Yunnan University Data Operation and Management Engineering Research Center, School of Information, Yunnan University of Finance and Economics, Kunming Yunnan

Abstract

Received: Jun. 4, 2020; accepted: Jun. 17, 2020; published: Jun. 24, 2020

Data visualization software CiteSpace was used to analyze and study the institutions, authors and keywords of Chinese literature on text mining collected by CNKI. The research shows three con-clusions: 1) There is little cooperation between research institutions. 2) There is little communi-cation and cooperation among scholars, and the sense of cooperation still needs to be improved. 3) The hot topics include web mining, text classification, Chinese patent medicine, western medicine, data stratification algorithm, big data text and emotion analysis. Text mining and emotion analysis under big data are the main research trend of text mining in China.

Keywords

Text Mining, Visual Analysis, Hot Topic, Trend

国内文本挖掘的热点主题和前沿演进

——基于CNKI收录文献的可视化分析

王鑫1，沈江明2，徐江南1，曾志勇3*

*云南财经大学统计与数学学院，云南省高校数据化运营管理工程研究中心，云南昆明中国电信股份有限公司云南分公司企业信息化部，云南昆明

通讯作者。

文章引用: 王鑫, 沈江明, 徐江南, 曾志勇. 国内文本挖掘的热点主题和前沿演进[J]. 统计学与应用, 2020, 9(3): 491-497. DOI: 10.12677/sa.2020.93052

王鑫等

云南财经大学信息学院，云南省高校数据化运营管理工程研究中心，云南昆明

收稿日期：2020年6月4日；录用日期：2020年6月17日；发布日期：2020年6月24日

摘要

使用数据可视化软件CiteSpace基于中国学术网络出版总库(CNKI)收录的关于研究文本挖掘的中文文献对机构、作者、关键词等绘制图谱并进行分析与评述。经研究表现出三方面结论：1) 各研究机构之间合作比较分散，合作较少；2) 各学者间的交流与合作不显著，合作意识仍然有待提高；3) 研究的热点主题有web挖掘、文本分类、中成药、西药、数据分层算法、大数据文本、情感分析；大数据下文本挖掘与情感分析为我国文本挖掘研究的主要研究趋势。

关键词

文本挖掘，可视化分析，热点主题，趋势

This work is licensed under the Creative Commons Attribution International License (CC BY 4.0). http://creativecommons.org/licenses/by/4.0/

Open Access 1. 引言

近年来，随着计算机、大数据挖掘等技术的飞速发展，日常活动产出文本类电子日志与日俱增，使得获取大量电子文本成本变低。而各个领域文本日志、文本数据都或多或少蕴含着有利于该领域发展的潜藏信息，因此挖掘出其中蕴藏的信息财富变得尤为重要。这使得文本挖掘技术近年来在各个领域有极其显著的发展。而同时文本类数据相较于结构化数据的特殊性，特别是中文类文本，由于中文语义及中文文段没有像英文的天然空格作为分词等特点。对其进行分析往往需要更复杂的工序。因此文本挖掘技术广受计算机技术领域与数据挖掘领域的关注。为了迅速把握我国文本挖掘技术研究的热点主题及趋势。本文使用可视化软件CiteSpace对CNKI平台收录的有关文本挖掘技术的文献进行可视化定量分析[1]，期望能够为文本挖掘技术的后续研究提供趋势参考，这对了解目前文本挖掘前沿方向具有重要意义。

2. 研究工具及数据来源

(一) 研究工具。本文的数据处理采用的是由美国德雷塞尔大学的信息可视化专家陈超美教授开发的CiteSpaceV软件，该软件是在JAVA应用程序基础上开发的，能够对科学文献进行可视化分析，跟踪领域的研究热点，探测领域的研究趋势[2]。其特点是能把一个知识领域的大量文献数据以一种多元、分时、动态的可视化图形将该领域的发展历程集中展现在一张知识图谱上[3]。而本文是基于CiteSpace5.6.R4版本进行数据可视化，该版本容纳的数据量较之前版本大幅提升并加入支持图形旋转、压缩和舒展的功能[4]。从而为本文提供的文献作者、机构、关键字等数据，绘制更优的可视化图谱、建立节点间的关联来分析其之间的共现关系与共被引关系[5]。

(二) 数据来源。本文的数据全部来源于中国学术期刊网络出版总库(CNKI)收录的文献。使用CNKI的高级检索功能选择“文献”下的主题检索。在检索条件中填入“文本挖掘技术”“文本挖掘”的关键

DOI: 10.12677/sa.2020.93052

492

统计学与应用

王鑫等

字，为契合研究主题检索时间跨度选择的是1998年4月1日至2020年4月18日，且仅选择中文文献再经过人工筛选剔除新闻宣传等非本文研究重点的文献，最终保留有分析价值的文献1168篇。最后将目标文献以Refworks的参考文献格式导出并使用CiteSpace软件转码为其可以识别使用的文献格式。从而为后续的分析提供了数据支持。

3. 数据结果分析

(一) 发文量情况统计

1) 发文量与年份的统计分析。如图1显示了我国文本挖掘技术研究性文献在中国学术网络出版社总库(CNKI)发文量随年份的变化趋势。图中可以看到第一篇研究文本挖掘的文献是在1999年发布的。此后从2001年开始年发文量逐年快速线性上升且2008年突破了年发文量80篇，研究吸引力趋势可见一斑；而2008年到2015年的年度发文量保持在60篇到90篇的区间内。2016年的发文量达到峰值118篇。2017年开始发文量有所下跌但至今每年发文量依然保持在90篇以上的水平。由此可见文本挖掘技术受到了我国学者们的广泛关注与研究。

Figure 1. Trend of publication volume 图1. 发文量年度趋势图

2) 机构群与作者群分析。在运行CiteSpace前，设置时间跨度为1998年至2020年，时间切片(Years Per Slice)为1年，节点类型为机构(Institution)，TOPN = 50，将阈值(Thresholding)的c设置为2，2，20；cc与ccv设置为4，3，20。数据修剪(Pruning)勾选Pathfinder和pruning sliced networks。其他参数均为默认值。经过运行得到如图2的机构共现可视化图谱。可以看到图谱中中国中医科学院中医临床基础医学研究所、兰州大学信息学院、上海中医药大学三所机构节点较大，由CiteSpace绘制的图片发文量越多节点越大的特点，可得这三所机构在我国文本挖掘的研究中发文量靠前、学术研究投入力度较大。此外，可以从该图谱中看到其节点数(N)为324，连线数(E)为175，密度(Density)为0.0033。而节点间的连接线数表示节点即机构之间的联系，连接线越多表示机构间联系越紧密，图2中的连接数明显较少。其次，密度值越小节点间的联系越稀疏，从而也佐证了各机构间合作比较稀疏，合作较少，缺乏合作。

再次运行CiteSpace，其他参数不变节点类型更改为作者(Author)。经过运行得到如图3的作者共现可视化图谱，从图中不难看出文献产出数量较多的是吕爱平、郭洪涛、正光和姜淼，其他作者如谭勇、杨静、吕诚、张弛等发文量次之。此外图中可以显著观察到其中图结构连线基本没有断裂，无子图独立出现，这是由各个学者间交流合作的特性导致的。说明作者之间或多或少存在一些交流与合作，但从图中可以看到几位高产作者如郑光、姜淼、郭洪涛的交流与联系较少。另一方面，该图左上角数据显式的节点数(N)为499，连线数(E)为293，密度(Density)为0.0024。可见，我国文本挖掘的研究者们之间的交流合作意识仍然有待提高，学者们仍应多找机会进行学术交流与合作。

DOI: 10.12677/sa.2020.93052

493

统计学与应用

王鑫等

Figure 2. Linkage distribution of institutions 图2. 机构共现可视化图谱

Figure 3. Linkage distribution of authors 图3. 作者共现可视化图谱

DOI: 10.12677/sa.2020.93052

494

统计学与应用

王鑫等

(二) 研究主题与热点分析。某项研究的主题与热点是该研究方向和重点的集中体现，因此深层次挖掘研究的主题与热点信息对更加全面客观了解该研究内容具有十分显著的价值。而在某一研究中，关键词是一个十分有用的衡量一篇文献主要内容的标准。并且，关键词出现频率较高就可以反映该领域的研究热点[6]。此外，在使用关键词进行热点分析以聚类的方式进行时是以关键词共现分析作为基础，使用聚类统计学方法作为工具将关键词共现网络关系简化为聚类总数相对较少的过程[7]。而本文的研究侧重于通过该关键词聚类分析方法分析我国文本挖掘技术领域的研究热点，以可以客观分析出我国文本挖掘技术领域的研究热点。

在关键词聚类分析中，CiteSpace的节点类型(Node Types)设置为关键词(Keyword)，其他参数保持不变。从而运行得到关键词关系可视化图谱，再对其选择LLR算法进行聚类，以得到图4所示的关键词聚类可视化图谱。此时从图左上角可以看到Q = 0.6678该值远大于0.3说明这个聚类效果是十分显著的；Mean Silhouette = 0.3873也说明了该聚类的结构是合理的。并且，可以观察到其中呈现了“专利数据”“web文本挖掘”“数据挖掘”“文本分类”“自然语言处理”“文本聚类”“hadoop”“技术主题”“中成药”“vsm模型”“情感倾向分析”“信息抽取”“文本挖掘技术”“新闻”“隐结构模型”“深度学习”共16类，从而反映出了我国文本挖掘技术研究的热点并且该结果是合理显著的。

Figure 4. Keyword clustering 图4. 关键词聚类可视化图谱

(三) 研究趋势分析。鉴于凸现出的关键词可以反映某个关键词在某段时间内被引用的次数突然激增，为此可以借助CiteSpace得到关键词凸现图以研究某一时间段内文本挖掘技术的研究趋势。如下图5。图

DOI: 10.12677/sa.2020.93052

495

统计学与应用