基于大数据的学生成绩关联因素分析.docx

  • 需要金币1000 个金币
  • 资料包括:完整论文
  • 转换比率:金钱 X 10=金币数量, 即1元=10金币
  • 论文格式:Word格式(*.doc)
  • 更新时间:2018-07-24
  • 论文字数:14958
  • 当前位置论文阅览室 > 毕业设计 > 设计说明 >
  • 课题来源:(小山神)提供原创文章

支付并下载

摘要:随着国家不断调整教育结构,各高校不断扩招,学生和教师的数量大幅增长。给教学和管理工作带来了严峻的考验,由于缺乏必要的技术和手段,管理人员只能通过传统方法进行统计分析,未能发现数据背后重要的有效信息。

本文研究了基于校园卡数据的预测方法,利用校园卡数据,提取了图书馆借阅、校园卡消费、宿舍门禁、图书馆门禁、学生成绩等数据的数据特征。对这些数据进行数据预处理,从地点维度、时间维度、消费方式维度进行特征提取。利用机器学习XGBoost算法的方法来预测影响学生成绩的关联因素,得到图书馆学习天数,学习次数等重要影响因素,从而帮助同学改变学习方法,帮助老师改变教学方式。

 

关键词:机器学习;Python;XGBoost算法;关联规则

 

目录

摘要

Abstract

1 绪论-1

1.1研究背景及意义-1

1.2 国内外现状及发展趋势-1

1.2.1 国内现状及发展趋势-1

1.2.2 国外现状及发展趋势-1

1.3本文主要内容及结构安排-2

2.数据挖掘及机器学习综述-3

2.1数据挖掘-3

2.1.1 数据挖掘概念-3

2.1.2 数据挖掘过程-3

2.2 机器学习-4

2.2.1 机器学习概念-4

2.2.2 机器学习主要任务-4

2.2.3开发机器学习应用程序的步骤-5

2.2.4 Python语言-5

2.3 数据挖掘相关技术-6

2.3.1 关联规则算法-6

2.3.2 决策树算法-6

2.3.3聚类分析-6

2.4 本章小结-6

3 关联规则数据挖掘算法分析-7

3.1 关联规则-7

3.2关联规则经典算法Apriori算法-7

3.2.1 Apriori定义-7

3.2.2 Apriori算法的一般过程-7

3.3使用Apriori算法来发现频繁集-8

3.3.1 生成候选项集-8

3.3.2 组织完整的Apriori算法-8

3.4从频繁项集中挖掘关联规则-8

3.5本章小结-9

4 学生成绩数据关联因素分析的设计与实现-10

4.1 问题简述-10

4.2 数据准备-10

4.3 特征工程-10

4.3.1特征构造-10

4.3.2 特征处理-11

4.3.3特征选择-12

4.4 模型选择-12

4.4.1 Random Forest(随机森林)算法-12

4.4.2 GBDT算法-12

4.4.3 XGBoost算法-13

4.5模型融合及参数调优-13

4.5.1模型融合和模型选择的区别-13

4.5.2 模型融合方法-13

4.5.3 参数调优-14

4.6实验数据说明和处理-14

4.7实验评估指标-15

4.8实验结果-15

4.9 本章小结-15

结    论-16

参 考 文 献-17

附录A 程序-18

附录B 结果-20

致    谢-38