基于Hadoop的大数据平台搭建及其在互联网行业的应用.doc

  • 需要金币2000 个金币
  • 资料包括:完整论文
  • 转换比率:金钱 X 10=金币数量, 即1元=10金币
  • 论文格式:Word格式(*.doc)
  • 更新时间:2018-04-14
  • 论文字数:15949
  • 当前位置论文阅览室 > 原创论文 > 文献综述 >
  • 课题来源:(月光影子)提供原创文章

支付并下载

摘要:随着互联网的环境推动和海量数据的增加,尤其当公司做大到要上市的时候,会面临一个很大的问题:由于数据量的庞大,从开始整理数据,到做数据报表,往往会花费大量的时间。慢慢的大数据概念进入人们的视野中。随着数据量的快速增加,公司需要根据自身的需求搭建合适的大数据平台。

大数据平台主要的功能就是对数据的处理和分析,是处理大数据的一种基础设施。现在全球都在发展和完善大数据平台的功能。从目前的发展现状来看,大数据平台主要应用于传统信息技术企业、新兴互联网企业、高效研究院这三大阵营。

本文利用Hadoop集群搭建了平台,介绍了搭建完成的大数据分析平台各个模块的功能。互联网行业中常见的数据处理方式有数据预处理、数据分析和数据预测,选用了数据拼接、各省份访问次数统计和业绩预测三个案例。经过平台的处理后,得到想要的结果,且都能实现平台的各个方面功能。

 

关键词 大数据平台;分布式;Hadoop;数据处理

 

目录

摘要

Abstract

1 绪论-1

1.1 大数据的相关概念-1

1.2 国内外发展状况-2

1.3 本文的研究内容-3

2 大数据平台及其搭建-4

2.1 Hadoop简介-4

2.2 大数据平台的搭建-4

2.2.1 Common-4

2.2.2 HDFS-9

2.2.3 MapReduce-12

2.2.4 YARN-13

3 大数据平台对互联网行业的影响-16

3.1 谷歌-16

3.2 FaceBook-16

3.3 百度、腾讯、阿里巴巴-17

4 大数据平台在互联网行业的实际应用-18

4.1 数据的预处理-18

4.1.1 数据拼接-18

4.1.2 运行结果-19

4.2 数据的分析-20

4.2.1 省份统计-20

4.2.2 运行结果-21

4.3 预测未来业绩-22

4.3.1 数据清洗与访问次数统计-22

4.3.2 最小二乘曲线拟合-23

4.3.3 求解过程及结果分析-25

结论-27

致谢-28

参考文献-29

附录-30