摘要:不平衡数据集中,由于少类样本和多类样本的不平衡,在分类过程中容易产生难以分类和错误分类的现象。而本文主要针对不平衡数据集的分类特点,设计出一种组合分类器,适用于不平衡数据集的分类。
本文确定采用decision stump(单层决策树)作为基本分类器,先对数据集进行预先采样处理,减缓不平衡度,单独的基本分类器效果有限,但是通过adaboost算法可以有效提高分类效果,并且体现出adaboost算法的优点。
由于算法中通过改变正类样本的权值,从而重视对少类样本的分类,所以在一定程度上能够提高整体的分类效果,实现不平衡数据集的分类设计。
关键词:不平衡数据集;adaboost算法;decision stump;基本分类器
目录
摘要
Abstract
第一章 绪论-3
1.1 课题研究背景和意义-3
1.2 研究现状-3
1.3研究内容和意义-5
第二章 不平衡数据集-7
2.1 不平衡数据集概述-7
2.2 不平衡数据集分类难点-7
2.2.1样本缺失-7
2.2.2不恰当的评价标准-7
2.2.3数据噪声-8
2.3不平衡数据集分类算法的性能指标-8
2.4本章小结-9
第三章 数据采样-10
3.1过采样技术-10
3.2欠采样技术-10
3.3 SMOTE算法采样-10
3.4 本章小结-11
第四章 基本分类器-12
4.1模式分类概念-12
4.2模式分类流程-12
4.3 decision stump(单层决策树)-13
4.4本章小结-13
第五章 分类器组合算法(Adaboost算法)-15
5.1 Adaboost算法概述-15
5.2 Adaboost算法流程介绍-15
5.2.1 AdaBoost算法描述-15
5.2.2 AdaBoost算法流程-15
5.4算法流程图-17
5.5 adaboost算法优点-19
5.6 整体设计框架图-19
第六章 基于Adaboost算法的实验结果分析-21
6.1实验数据-21
6.2实验数据结果-21
6.3分类结果变化图-22
6.3.1 demo数据集分类结果-22
6.3.2 heart数据集分类结果-23
6.3.3 usps数据集分类结果-23
6.4 实验结果分析-24
第七章 总结与展望-25
致谢-26
参考文献-27