摘要:手机终端已经是当今世界人们的重要生活组成部分,人们使用的手机更换的频率也越来越快。如何对手机变迁进行正确预测,对于运营商和手机制造商有重要的意义。
本文试图根据某城市2015年1月-2015年12月的“用户终端使用变迁”数据,预测用户在2016年1月-2016年3月期间是否会更换手机。通过运用大数据技术对用户终端使用进行多方面的分析,构造训练集和测试集,应用xgboost算法组合成多学习器预测模型,对未来每个用户进行预测。本文采用严格匹配每月用户的手机型号来区分正负,将类别型特征进行编码转化为数值型特征来方便对数据进行训练。最终我们使用xgboost 算法来构造模型,使用单模型,多模型融合来实现对用户手机终端变迁的预测。本文将数据挖掘技术应用到手机终端变迁的预测研究中,对于移动数据工作者开展项目有重要作用,对其他换机或手机终端变迁预测研究有一定参考价值。
关键词:数据挖掘;xgboost 算法;手机终端;变迁预测
目录
摘要
Abstract
1绪论-1
1.1课题背景-1
1.2研究目的及现状-1
1.3研究主要内容-1
2数据挖掘技术-3
2.1数据挖掘简介-3
2.2数据挖掘的特征-3
2.3数据挖掘的方法-4
2.3.1决策树方法-4
2.3.2贝叶斯分类算法-5
2.4本章小结-5
3Python语言及其程序包功能分析-6
3.1Python语言概述-6
3.2程序包基于Python语言和Pandas库的算法实现-6
3.2.1数据分析包Pandas-6
3.2.2基于Pandas算法库的数据处理-7
3.3本章小结-9
4基于联通数据的终端变迁预测研究-10
4.1数据集说明与简要分析-10
4.2数据预处理-11
4.3正负样本处理-12
4.4基于xgboost算法库的模型构造及预测-14
4.5本章小结-15
结 论-16
参 考 文 献-17
附录A 程序代码-18
致 谢-25