摘要:随着云计算的大力发展与广泛的应用,大数据这个词汇在生活、工作中的出现也越来越频繁,如何利用好大数据平台也逐渐成为很多公司的工作重点之一。
众多大型公司以Hadoop生态圈为核心的大数据分析技术不断完善,这为公司繁多的大数据处理需求提供了很大的帮助。
本文是在Hadoop的集群介绍基础上,对数据收集、分析以及展示模块分别进行需求的分析,并进行文件的配置和代码得实现。根据对数据的收集分析,完成整个离线电商分析平台的设计工作。
在设计实现过程当中,主要是将用户日志数据存储在Hadoop的HDFS存储系统当中,并利用MapReduce系统框架对用户数据进行计算。在对系统设计进行需求分析之后,研究整个平台设计的具体实现方法,主要包括三大模块系统的代码实现:用户数据收集、用户信息数据的分析以及数据分析结果展示。当中又将对七个小模块的数据进行具体分析,分别为:用户基本信息分析模块、操作系统分析模块、地域信息分析模块、用户浏览深度分析模块、外链数据分析模块、订单分析模块和事件分析模块。最后提供API对数据结果进行展示,并且将整个设计进行整合,完成整个平台的实现。
关键词 Hadoop;大数据;离线电商数据;数据挖掘分析;HDFS
目录
摘要
Abstract
1 绪论-1
1.1 研究背景及意义-1
1.2 国内外研究现状-1
1.3 主要研究内容-2
1.4 论文组织结构-2
2 相关技术分析-3
2.1 Hadoop-3
2.1.1 HDFS分布式文件系统-3
2.1.2 MapReduce-5
2.2 HBase技术介绍-7
2.3 Hive技术介绍-8
2.4 Sqoop技术介绍-8
2.5 本章小结-9
3 离线电商分析平台的需求与设计-10
3.1 日志收集系统-10
3.1.1 JavaSDK需求分析-10
3.1.2 JsSDK需求分析-10
3.2 数据分析系统-11
3.3 数据展示系统-11
3.4 本章小结-11
4 离线电商分析平台的搭建与实现-12
4.1 系统开发环境及运行环境-12
4.1.1 创建用户-12
4.1.2 修改主机名及SSH免密码登录-12
4.1.3 JDK安装-13
4.1.3 Hadoop安装-13
4.2 离线电商的分析平台的功能模块的实现-14
4.2.1 日志收集系统模块-14
4.2.2 数据分析系统模块-16
4.2.3 数据展示系统模块-17
结论-19
致谢-20
参考文献-21
附录-22