摘要:随着互联网,物联网,嵌入式技术的飞速发展,人与人,人与物,物与物之间通过网络连接起来,使我们的行为语言变得数字化,产生大量的数据,这些数据有结构多样,数量巨大,价值密度低,价值大的特点,被称为大数据。这些数据都蕴藏着巨大的价值,但是现有的数据处理方式已经不能满足大数据的处理要求了。
Hadoop的诞生,使批量大数据存储与分析变得容易且高效,因为Hadoop在处理数据时采用HDFS来分布式管理数据的存储,提供一套机制实现数据的分布存储,使磁盘的利用率最大化;采用MapReduce并行计算框架使计算的代码在不同的机器上并行运行,并将结果统一,使CPU的利用率最大化。
本文主要介绍批量大数据的产生,大数据处理系统的发展与应用,并以一种流行的批量大数据处理系统Hadoop进行分析与应用。分析Hadoop的关键组件HDFS与MapReduce。通过对Hadoop系统的学习,设计一种基于Hadoop框架的网站日志文件处理模型,将生成的网络日志文件上传到HDFS,利用MapReduce进行分析得到网页的访问量,将得到的结果通过sqoop导出到Mysql关系型数据库中。通过搭建Hadoop的集群实验环境来验证此系统的可用性并分析实验结果。
关键词:批量大数据 Hadoop 网络日志分析
目录
摘要
Abstract
1绪论-1
1.1研究目的和意义-1
1.2研究背景-1
1.2.1国外现状-1
1.2.2国内现状-2
1.3研究内容-2
1.4文章结构-3
2批量大数据处理系统及其核心技术-3
2.1大数据-3
2.2批量大数据-4
2.3批量大数据处理系统-4
2.4批量大数据处理系统的应用场景-4
2.5 HDFS详解-5
2.5.1 HDFS设计思想-5
2.5.2 HDFS块-6
2.5.3 HDFS 组件-6
2.5.4 HDFS存取流程-8
2.5.5 HDFS编程-8
2.6 MapReduce详解-9
2.6.1 MapReduce 设计思想-9
2.6.2 MapReduce 组件-10
2.6.3 MapReduce 作业流程-10
2.6.4 MapReduce的实现-12
2.7 本章小结-13
3 Hadoop批量大数据处理系统应用设计-13
3.1 设计背景-13
3.2 功能分析-14
3.3 日志格式分析-14
3.4 流程图-15
3.5 功能模块实现分析-15
3.5.1文件上传模块-15
3.5.2 数据统计分析模块-16
3.5.3 数据导出模块-19
3.6 本章小结-19
4搭建Hadoop批量大数据处理系统并分析实验结果-20
4.1 实验环境搭建-20
4.1.1硬件环境-20
4.1.2软件环境-20
4.1.3 Hadoop集群伪分布式搭建方法-21
4.1.4 Hadoop集群分布式搭建方法-24
4.2实验结果及分析-26
4.2.1测试Hadoop集群的可用性: wordcount-26
4.2.2测试网站日志处理系统可用性-28
4.2.3测试网站日志处理系统性能-31
4.3 本章小结-32
5总结与展望-33
5.1 论文总结-33
5.2 对未来的展望-33
致谢-34
参考文献-35