摘要:社交网络中的信息传播的速度的关键因素之一就是意见领袖,目前的研究中,基本上都是针对微博、Twitter等的数据对意见领袖掘进行分析与研究的。本文提出了一种基于回应词的QQ群意见领袖的挖掘方法,此意见领袖的挖掘方法的主要思想是将基于回应词的网络和基于用户交互的社交网络结合起来。通过构建QQ群数据的回应词词库,运用Aho-Corasick的回应词匹配算法进行文本挖掘寻找匹配数据,建立用户的社交网络结构图,对用户的社交网络节点的统计量信息进行分析,而统计量信息具体包括度中心性、紧密度中心性、介数中心性及PageRank统计量,根据这四种统计量信息的值挖掘出意见领袖,并且将此与用户交互的社交网络特征相结合,从而得出本文研究的意见领袖的挖掘方法。本设计用核心率作为测试意见领袖挖掘方法准确率的测试函数。核心率的定义为其他用户对该用户的交互信息量占总的交互信息量的比率,其交互性是比较强的,并且考虑到本文研究的对象QQ群,作为一个交互性很强的社交网络,因此选择核心率作为评价本算法与其他算法在意见领袖挖掘准确率方面的评价标准是比较合适的。本设计基于分析度中心性、紧密度中心性、介数中心性和PageRank统计量这四种统计值的核心率的大小,找出准确率相对高一些的意见领袖的挖掘方法。意见领袖挖掘的准确率与四种统计值的核心率的值成正比。实验结果表明,该方法对QQ群数据中的意见领袖挖掘具有较高的准确率(准确率在77%以上),与目前的分别基于回应词网络和用户交互社交网络的意见领袖挖掘相比意见领袖挖掘的准确率提高了11%。
关键词:意见领袖;社交网络;文本挖掘;回应词
目录
摘要
Abstract
1 绪论-1
1.1 研究的意义和目的-1
1.2 研究现状-1
1.3 主要研究内容-2
1.4 章节安排-2
2 回应词匹配算法及回应词词库构建概述-4
2.1 回应词匹配算法-4
2.2 回应词词库的构建-4
3 QQ群意见领袖挖掘算法-6
3.1 算法的设计思想-6
3.2 算法流程图-6
3.3算法各模块说明-7
3.3.1 文本数据处理模块-7
3.3.2 匹配与模型构建模块-7
3.3.3 社交网络分析模块-7
4 实验设计与结果分析-8
4.1实验环境描述-8
4.2实验设计-8
4.2.1程序设计方案-8
4.2.2测试函数介绍-10
4.2.3算法性能指标介绍-10
4.3结果分析-11
4.3.1基于回应词网络的意见领袖挖掘-11
4.3.2基于用户交互社交网络的意见领袖挖掘-12
4.3.3基于回应词网络和用户交互社交网络相结合的意见领袖挖掘-12
结 论-14
参 考 文 献-15
附录A 实现代码-16
致 谢-24