摘要: 随着我国全面进入工业4.0时代,信息技术的迅速发展,对社会的发展和国民生活产生了重要影响。许多行业都向着互联网方向进行转型。各行业数据的不断增长,促使了海量数据的不断产生,相对传统数据处理技术来说,处理的数据量远超其范畴。传统数据处理架构搭建昂贵扩展性差,海量数据如何处理变得迫在眉睫。
本次设计使用云计算模型Hadoop进行平台的搭建,基于分布式计算模块MapReduce对海量数据进行业务分析处理。本平台分为存储客户端,Hadoop集群,查询客户端三部分。首先存储客户端进行数据的自动采集,将采集数据存储至云平台中,之后采集数据在云平台进行处理,最后将处理完的数据传输至外部数据库进行持久化存储。
海量数据采用MapReduce模型进行分布式处理,本平台可根据数据特性进行业务分析处理,从而提升平台可移植性,提升数据采集效率,提高数据存储容量,做到扩展性好,成本低,高可靠性。
本文围绕Hadoop详细设计并搭建数据采集存储云平台。旨在使用Hadoop模型搭建成本较低,可扩展性强的自动化采集存储海量数据的云平台,并测试云平台的可用性。
关键词:海量数据;云计算;MapReduce;分布式计算模型
目录
摘要
Abstract
1 绪论-1
1.1课题背景-1
1.2选题意义与目的-1
1.3与本课题有关的国内外研究现状-2
1.3.1大数据处理发展现状-2
1.3.2云计算平台发展现状-2
1.4平台设计思想-2
1.5系统开发环境-3
2 MapReduce模块原理-4
2.1分布式计算-4
2.2 Hadoop框架-4
2.2.1Hadoop特点-4
2.2.2HDFS概述-4
2.2.3MapReduce原理-5
2.2.4虚拟化技术-6
2.2.5Hadoop相关技术-6
3 基于MapReduce的数据采集云平台架构-7
4 数据采集存储平台需求分析与架构设计-9
4.1平台功能概述-9
4.2 平台集群规划-9
4.3 平台存储架构设计-10
5 云平台的模块设计与实现-11
5.1存储客户端-11
5.1.1功能需求-11
5.1.2技术选型-11
5.1.3模块设计-12
5.2Hadoop集群-12
5.2.1集群概要-12
5.2.2平台数据选型-12
5.2.3平台自动化-13
5.3查询客户端-14
5.3.1功能需求-14
5.3.2技术选型-14
5.3.3模块设计-14
6 基于MapReduce云平台虚拟集群的实现-15
6.1平台业务模块设计-15
6.1.1蔬菜大棚模块-15
6.1.2网站访问模块-17
6.2平台业务模块实现-20
6.2.1蔬菜大棚模块实现-20
6.2.2网站访问模块实现-22
6.3云平台的功能测试-23
6.3.1蔬菜大棚模块测试-23
6.3.2网站访问模块测试-25
6.4云平台自动化构建-30
6.4.1云平台采集端自动化实现-30
6.4.2云平台存储处理端自动化实现-33
6.5云平台可以改进的地方-34
6.5.1云平台性能改善-34
6.5.2云平台数据改善-34
结 论-36
参 考 文 献-37
附录A Hadoop集群搭建-38
附录B Hadoop集群测试-46
附录C 云平台MapReduce部分代码-52
致 谢-61