摘要:互联网自1969年诞生,一直远超人们的预期快速发展。微信公众平台从2012年作为一个新兴的媒体平台,呈现出垂直、分层开发、专业经营趋势。本文对微信公众号行业分布趋势进行分析。
首先,对其数据进行抓取,设计了网络爬虫程序,在爬取的程序中利用Scrapy框架,在数据抓取的过程中用到递归算法,并设计程序将抓取到的微信公众号的名称、微信号、类别、省份、成立时间、介绍等信息存储于数据库中。然后使用数据可视化工具Tableau反映出微信公众号行业分布,从多个角度不同行业进行分析。
经分析,从整个行业的角度来讲,娱乐类的微信公众号数量最多,其次是教育类的。这几类中娱乐行业的开通率最高达83.55%,微信公众号的发文次数也在提高约14.2%;从发文时间的角度来讲,一天中的早晚高峰特别是16:00-19:00,这期间是微信公众号发文高峰时间,也是阅读高峰;从城市分布角度来说,在发达的城市,尤其是广东和北京微信公众号分布较多,当然其他的城市也在不断的发展中。总的说来,根据2016年第三四季度的预测,2017年的微信公众号市场还会保持快速发展。
关键词 网络爬虫;微信公众号;Scrapy框架;数据可视化
目录
摘要
Abstract
1 绪论-1
1.1 研究背景及意义-1
1.2 国内外研究现状-2
2 基本理论-4
2.1 网络爬虫概述-4
2.1.1 网络爬虫的概念-4
2.1.2 网络爬虫的原理-4
2.1.3 网络爬虫抓取策略-5
2.2 Scrapy框架-6
2.2.1 Scrapy组成-6
2.2.2 Scrapy框架的分布式策略-8
2.3 数据可视化工具的基本理论-10
2.3.1 数据可视化工具Tableau的基本功能-10
2.3.2 可视化工具Tableau的主要特性-10
3 网络爬虫程序设计-12
3.1 网络爬虫爬取入口-12
3.2 网络爬虫程序设计-12
3.2.1 数据抓取-13
3.2.2 数据存储-16
3.2.3 数据获取-18
4 行业分布趋势分析-20
4.1 数据预处理-20
4.2 微信公众号行业分布分析-22
4.2.1 公众号发文量分析-22
4.2.2 公众号发文时间分析-23
4.2.3 地区分布趋势分析-25
4.3 微信公众号行业分布预测-27
4.3.1 游戏行业分布预测-28
4.3.2 汽车行业分布预测-28
4.3.3 行业趋势预测-29
结论-34
致谢-35
参考文献-36
附录-37