批量大数据处理系统的分析与应用.docx

  • 需要金币1000 个金币
  • 资料包括:完整论文
  • 转换比率:金钱 X 10=金币数量, 即1元=10金币
  • 论文格式:Word格式(*.doc)
  • 更新时间:2019-01-26
  • 论文字数:17292
  • 当前位置论文阅览室 > 毕业设计 > 信息与计算科学 >
  • 课题来源:(神笔马良)提供原创文章

支付并下载

摘要:随着互联网,物联网,嵌入式技术的飞速发展,人与人,人与物,物与物之间通过网络连接起来,使我们的行为语言变得数字化,产生大量的数据,这些数据有结构多样,数量巨大,价值密度低,价值大的特点,被称为大数据。这些数据都蕴藏着巨大的价值,但是现有的数据处理方式已经不能满足大数据的处理要求了。

Hadoop的诞生,使批量大数据存储与分析变得容易且高效,因为Hadoop在处理数据时采用HDFS来分布式管理数据的存储,提供一套机制实现数据的分布存储,使磁盘的利用率最大化;采用MapReduce并行计算框架使计算的代码在不同的机器上并行运行,并将结果统一,使CPU的利用率最大化。

   本文主要介绍批量大数据的产生,大数据处理系统的发展与应用,并以一种流行的批量大数据处理系统Hadoop进行分析与应用。分析Hadoop的关键组件HDFS与MapReduce。通过对Hadoop系统的学习,设计一种基于Hadoop框架的网站日志文件处理模型,将生成的网络日志文件上传到HDFS,利用MapReduce进行分析得到网页的访问量,将得到的结果通过sqoop导出到Mysql关系型数据库中。通过搭建Hadoop的集群实验环境来验证此系统的可用性并分析实验结果。

关键词:批量大数据 Hadoop 网络日志分析

 

目录

摘要

Abstract

1绪论-1

1.1研究目的和意义-1

1.2研究背景-1

1.2.1国外现状-1

1.2.2国内现状-2

1.3研究内容-2

1.4文章结构-3

2批量大数据处理系统及其核心技术-3

2.1大数据-3

2.2批量大数据-4

2.3批量大数据处理系统-4

2.4批量大数据处理系统的应用场景-4

2.5 HDFS详解-5

2.5.1 HDFS设计思想-5

2.5.2 HDFS块-6

2.5.3 HDFS 组件-6

2.5.4 HDFS存取流程-8

2.5.5 HDFS编程-8

2.6 MapReduce详解-9

2.6.1 MapReduce 设计思想-9

2.6.2 MapReduce 组件-10

2.6.3 MapReduce 作业流程-10

2.6.4 MapReduce的实现-12

2.7 本章小结-13

3 Hadoop批量大数据处理系统应用设计-13

3.1 设计背景-13

3.2 功能分析-14

3.3 日志格式分析-14

3.4 流程图-15

3.5 功能模块实现分析-15

3.5.1文件上传模块-15

3.5.2 数据统计分析模块-16

3.5.3 数据导出模块-19

3.6 本章小结-19

4搭建Hadoop批量大数据处理系统并分析实验结果-20

4.1 实验环境搭建-20

4.1.1硬件环境-20

4.1.2软件环境-20

4.1.3 Hadoop集群伪分布式搭建方法-21

4.1.4 Hadoop集群分布式搭建方法-24

4.2实验结果及分析-26

4.2.1测试Hadoop集群的可用性: wordcount-26

4.2.2测试网站日志处理系统可用性-28

4.2.3测试网站日志处理系统性能-31

4.3 本章小结-32

5总结与展望-33

5.1 论文总结-33

5.2 对未来的展望-33

致谢-34

参考文献-35