摘要:作为新一代的大数据处理技术,Spark是继Hadoop之后大数据处理中心的首选平台,未来将会在大数据领域发挥非常重要的作用。
本篇论文通过对以往文献的研究,详细介绍了Spark的相关概念,执行过程以及生态系统。通过对海量数据的研究分析,说明了海量数据所带来的挑战以及海量数据在人们生活中的应用。此外,通过介绍一个基于Spark的推荐系统的建立过程,具体展示了Spark的功能和应用。最后,通过实证分析并结合爱奇艺网站的实际情况来论证这个推荐系统的可行性,结果表明新系统比原有系统更具优势,完全能够满足视频网站的实际需求。同时,也证明了Spark平台在处理海量数据方面具有非常大的优势。
希望本篇论文能够为更多想要在实际中部署和使用Spark的企业提供参考和借鉴。
关键词: Spark; 海量数据; 推荐系统
目录
摘要
Abstract
1 绪论-1
1.1 研究意义-1
1.2 国内外研究现状-1
1.2.1 关于海量数据的研究现状-1
1.2.2 关于Spark平台的研究现状-2
2 Spark相关介绍-3
2.1 Spark相关概念-3
2.1.1 弹性分布式数据集(RDD)-3
2.1.2 血统(Lineage)-4
2.2 Spark执行过程分析-4
2.3 Spark生态系统-5
2.3.1 Spark子框架-5
2.3.2 Spark底层文件存储系统-7
2.3.3 Spark的资源管理器-8
3 海量数据的研究-10
3.1 海量数据简介-10
3.1.1 海量数据的定义-10
3.1.2 海量数据的特点-10
3.2 处理海量数据所面临的挑战-11
3.2.1 成本与技术挑战-11
3.2.2 安全与隐私保护-12
3.2.3 海量数据专业人才的培养-13
3.3 海量数据在实际中的应用-13
3.3.1 基于用户信息实现精准营销-13
3.3.2 智慧城市的建设-13
3.3.3 医疗信息化-14
4 Spark在视频推荐中的应用研究-15
4.1 需求分析-15
4.2 数据的收集和存储-16
4.2.1 用户数据的收集-16
4.2.2 用户数据的存储-17
4.3 实时数据的处理-18
4.3.1 实时数据处理过程-18
4.3.2 实时数据的处理结果-18
4.4推荐系统的构建-18
4.4.1协同过滤算法分析-18
4.4.2 系统流程展示-20
4.5 实证分析-20
4.5.1 数据来源-21
4.5.2 系统评价指标的确定-22
4.5.3 评价指标的检验-23
4.5.4 实证分析的结果-24
结论-25
致谢-26
参考文献-27