摘要: 档案资料是我们生活中各种形式的概括、经验、知识的总和,在我们生活各方面都发挥着重要的作用,是人类社会宝贵的数据资料财富。而档案的类型也有很多,按内容分用途分或是按语言文字区分档案。我们研究中所涉及到的便是语言文字类很特别的少数民族文字档案。满文档案种类丰富、数量巨大,对满文档案进行数字化及开发利用对于抢救和保护少数民族档案文献、弘扬中华民族传统文化有着重要的作用和深远的意义,满文识别是对满文档案进行研究开发并加以利用的关键步骤,由于手写体与印刷体满文文档通常需要利用不同的文字识别算法来进行识别,因此我们需要建立一种手写体与印刷体满文档案辨识方法,首先我们对图像进行特征提取,提取过程中运用到了卷积,PCA降维,pooling池化等技术。然后结合所建立的特征提取算法和支持向量机分类器建立一种有效的手写体与印刷体满文档案辨识方法,并利用Python或Matlab语言实现该方法。与其他模式分类问题一样,手写体与印刷体文档辨识一般基于通过已建立图像特征提取算法和分类器,从已预先建立的图像库中提取有效信息,因此我们主要研究内容有以下三个重点:
(1)建立包含100幅图像以上的满文档案图像数据库;
(2)建立一种基于池化原始特性的图像特征提取方法;
(3)建立一个支持向量机分类器。
关键词:池化;支持向量机分类器;图像特征提取
目录
摘要
Abstract
1 绪论-1
1.1-本课题的背景及意义-1
1.2-国内外研究历史和现状-2
1.3 本文研究内容-3
1.4 本文组织结构-3
2 相关技术-4
2.1 图像特征提取方法-4
2.1.1 局部图像块提取和预处理-4
2.1.2 局部图像块提取-5
2.2 空间金字塔池-5
2.2.1空间金字塔池化过程-6
2.3卷积神经网络及分类-6
2.4分类器-7
2.4.1 贝叶斯分类器-7
2.4.2 支持向量机分类器(SVM)-8
2.4.3 决策树分类器-9
2.4.4 高斯过程分类器-9
2.5 深度学习-10
3 算法-13
3.1 数据库的建立-13
3.1.1 图像采集-13
3.1.2 训练集和测试集的构建-14
3.2 特征提取-14
3.2.1局部图像块提取-14
3.2.2 预处理-15
3.2.3 空间金字塔池化-15
3.3 支持向量机分类器-15
4 仿真实验
结论
参考文献
致谢