基于网络爬虫的舆情监测系统.zip

  • 需要金币1000 个金币
  • 资料包括:完整论文
  • 转换比率:金钱 X 10=金币数量, 即1元=10金币
  • 论文格式:Word格式(*.doc)
  • 更新时间:2016-10-14
  • 论文字数:13678
  • 当前位置论文阅览室 > 毕业设计 > 信息与计算科学 >
  • 课题来源:(王教授)提供原创文章

支付并下载

摘要:本文在了解了舆情监测系统的组成和学会了舆情监测的相关算法下,开发完成了这套基于网络爬虫的舆情监测系统·。

通过对本系统的技术开发和功能模块进行了解,将舆情监测系统划分以下四个工作流程:①帖子收集,通过网络爬虫对高校论坛的网页进行抓取,获得相关的数据信息②热度排名,对抓取下来的帖子根据话题热度进行排名,为舆情监测提供所需要的信息③情感分析,运用情感分词对数据库中存储的数据进行分析,来分别出情感消极,情感中性,情感积极的话题帖子,以便用户加以控制④监测展现,将监测到的信息展示给用户,让用户进行舆情分析。

本系统的学术成果如以下三个方面所示:

(1)根据系统的工作原理和运行机制,开发了一个易操作、效率高的网络爬虫;

(2)利用htmlpaser成功地对抓取的网页的重要信息数据进行了提取及分析;

(3)利用权重算法成功地进行了热度排名,利用情感分词工具对话题进行了精确地情感分析,从而让用户更方便的进行舆情监测。

 

关键词 网络舆情;帖子收集;热度排名;情感分析;网络爬虫

 

目录

摘要

Abstract

1 绪论-1

1.1 课题研究背景-1

1.2舆情监测研究现状-2

1.3 论文内容及组织-2

2 网络舆情研究相关技术分析-4

2.1 网络爬虫-4

2.2 网络解析-4

2.3 话题检测与跟踪技术-5

2.4 话题情感倾向性分析-5

2.5 话题发展趋势预测-6

2.6 本章小结-6

3 舆情监测系统分析-7

3.1 论坛的功能分析-7

3.1.1 系统体系结构分析-7

3.1.2 网页抓取-8

3.1.3 信息处理功能分析-9

3.1.4 舆情分析功能-9

3.1.5 系统展示功能分析-9

3.2 系统流程分析-9

3.3 系统数据库分析与设计-10

3.4系统设计要求-10

3.5 本章小结-11

4 网页抓取和信息预处理-12

4.1 网页抓取-12

4.1.1 网站分析-12

4.1.2 构建网络爬虫-13

4.2 信息预处理-13

4.2.1 HTMLPaser解析页面-13

4.2.2 中文分词-14

4.3 本章小结-14

5 舆情分析-15

5.1 热点主题发现-15

5.2 情感倾向性分析-15

5.3 本章小结-17

6 舆情监测系统实现-18

6.1系统登录-18

6.2帖子收集-18

6.3热度排名-19

6.4情感归纳-19

6.5本章小结-20

结论-21

致谢-22

参考文献-23