基于Map-Reduce的数据采集和存储系统设计与实现.docx

  • 需要金币1000 个金币
  • 资料包括:完整论文
  • 转换比率:金钱 X 10=金币数量, 即1元=10金币
  • 论文格式:Word格式(*.doc)
  • 更新时间:2018-07-25
  • 论文字数:17665
  • 当前位置论文阅览室 > 毕业设计 > 设计说明 >
  • 课题来源:(小山神)提供原创文章

支付并下载

摘要: 随着我国全面进入工业4.0时代,信息技术的迅速发展,对社会的发展和国民生活产生了重要影响。许多行业都向着互联网方向进行转型。各行业数据的不断增长,促使了海量数据的不断产生,相对传统数据处理技术来说,处理的数据量远超其范畴。传统数据处理架构搭建昂贵扩展性差,海量数据如何处理变得迫在眉睫。

本次设计使用云计算模型Hadoop进行平台的搭建,基于分布式计算模块MapReduce对海量数据进行业务分析处理。本平台分为存储客户端,Hadoop集群,查询客户端三部分。首先存储客户端进行数据的自动采集,将采集数据存储至云平台中,之后采集数据在云平台进行处理,最后将处理完的数据传输至外部数据库进行持久化存储。

海量数据采用MapReduce模型进行分布式处理,本平台可根据数据特性进行业务分析处理,从而提升平台可移植性,提升数据采集效率,提高数据存储容量,做到扩展性好,成本低,高可靠性。

本文围绕Hadoop详细设计并搭建数据采集存储云平台。旨在使用Hadoop模型搭建成本较低,可扩展性强的自动化采集存储海量数据的云平台,并测试云平台的可用性。

 

关键词:海量数据;云计算;MapReduce;分布式计算模型

 

目录

摘要

Abstract

1 绪论-1

1.1课题背景-1

1.2选题意义与目的-1

1.3与本课题有关的国内外研究现状-2

1.3.1大数据处理发展现状-2

1.3.2云计算平台发展现状-2

1.4平台设计思想-2

1.5系统开发环境-3

2 MapReduce模块原理-4

2.1分布式计算-4

2.2 Hadoop框架-4

2.2.1Hadoop特点-4

2.2.2HDFS概述-4

2.2.3MapReduce原理-5

2.2.4虚拟化技术-6

2.2.5Hadoop相关技术-6

3 基于MapReduce的数据采集云平台架构-7

4 数据采集存储平台需求分析与架构设计-9

4.1平台功能概述-9

4.2 平台集群规划-9

4.3 平台存储架构设计-10

5 云平台的模块设计与实现-11

5.1存储客户端-11

5.1.1功能需求-11

5.1.2技术选型-11

5.1.3模块设计-12

5.2Hadoop集群-12

5.2.1集群概要-12

5.2.2平台数据选型-12

5.2.3平台自动化-13

5.3查询客户端-14

5.3.1功能需求-14

5.3.2技术选型-14

5.3.3模块设计-14

6 基于MapReduce云平台虚拟集群的实现-15

6.1平台业务模块设计-15

6.1.1蔬菜大棚模块-15

6.1.2网站访问模块-17

6.2平台业务模块实现-20

6.2.1蔬菜大棚模块实现-20

6.2.2网站访问模块实现-22

6.3云平台的功能测试-23

6.3.1蔬菜大棚模块测试-23

6.3.2网站访问模块测试-25

6.4云平台自动化构建-30

6.4.1云平台采集端自动化实现-30

6.4.2云平台存储处理端自动化实现-33

6.5云平台可以改进的地方-34

6.5.1云平台性能改善-34

6.5.2云平台数据改善-34

结    论-36

参 考 文 献-37

附录A Hadoop集群搭建-38

附录B Hadoop集群测试-46

附录C 云平台MapReduce部分代码-52

致    谢-61