基于Hadoop的技术实现的离线电商分析平台.doc

  • 需要金币2000 个金币
  • 资料包括:完整论文
  • 转换比率:金钱 X 10=金币数量, 即1元=10金币
  • 论文格式:Word格式(*.doc)
  • 更新时间:2018-04-14
  • 论文字数:12822
  • 当前位置论文阅览室 > 原创论文 > 文献综述 >
  • 课题来源:(月光影子)提供原创文章

支付并下载

摘要:随着云计算的大力发展与广泛的应用,大数据这个词汇在生活、工作中的出现也越来越频繁,如何利用好大数据平台也逐渐成为很多公司的工作重点之一。

众多大型公司以Hadoop生态圈为核心的大数据分析技术不断完善,这为公司繁多的大数据处理需求提供了很大的帮助。

本文是在Hadoop的集群介绍基础上,对数据收集、分析以及展示模块分别进行需求的分析,并进行文件的配置和代码得实现。根据对数据的收集分析,完成整个离线电商分析平台的设计工作。

在设计实现过程当中,主要是将用户日志数据存储在Hadoop的HDFS存储系统当中,并利用MapReduce系统框架对用户数据进行计算。在对系统设计进行需求分析之后,研究整个平台设计的具体实现方法,主要包括三大模块系统的代码实现:用户数据收集、用户信息数据的分析以及数据分析结果展示。当中又将对七个小模块的数据进行具体分析,分别为:用户基本信息分析模块、操作系统分析模块、地域信息分析模块、用户浏览深度分析模块、外链数据分析模块、订单分析模块和事件分析模块。最后提供API对数据结果进行展示,并且将整个设计进行整合,完成整个平台的实现。

 

关键词 Hadoop;大数据;离线电商数据;数据挖掘分析;HDFS

 

目录

摘要

Abstract

1 绪论-1

1.1 研究背景及意义-1

1.2 国内外研究现状-1

1.3 主要研究内容-2

1.4 论文组织结构-2

2 相关技术分析-3

2.1 Hadoop-3

2.1.1 HDFS分布式文件系统-3

2.1.2 MapReduce-5

2.2 HBase技术介绍-7

2.3 Hive技术介绍-8

2.4 Sqoop技术介绍-8

2.5 本章小结-9

3 离线电商分析平台的需求与设计-10

3.1 日志收集系统-10

3.1.1 JavaSDK需求分析-10

3.1.2 JsSDK需求分析-10

3.2 数据分析系统-11

3.3 数据展示系统-11

3.4 本章小结-11

4 离线电商分析平台的搭建与实现-12

4.1 系统开发环境及运行环境-12

4.1.1 创建用户-12

4.1.2 修改主机名及SSH免密码登录-12

4.1.3 JDK安装-13

4.1.3 Hadoop安装-13

4.2 离线电商的分析平台的功能模块的实现-14

4.2.1 日志收集系统模块-14

4.2.2 数据分析系统模块-16

4.2.3 数据展示系统模块-17

结论-19

致谢-20

参考文献-21

附录-22