摘要:为了能够跟随Internet时代飞速发展的脚步和适应大规模中文文献处理的需要,从汉语文献中自动提取主题词,已成为自然语言处理研究领域的一个热点问题。从中文文本中提取主题词,也就是能够体现文章主要内容的词语,能够提高处理文本的效率以及增进对文本的认知能力。但是由于中文语言表达的多样性,造成了主题词的表达呈现多样化和较为自由的选取性。中文文本每个句子中的词语没有句逗功能,这严重影响了基于中文自然语言文本的自动匹配及处理工作。而传统的自然语言对主题词的处理只能体现出文字的外在表现形式,对文字更深层次的理解并不透彻。
本选题是基于科研项目申报内容信息文本主题词抽取算法的研究和实现,本文结合主题词抽取的现况,根据TFIDF算法中主题词词频的思想,对TFIDF算法的不足之处进行了研究,设计了以词语或短语在文本中出现的频率、位置权重来衡量文档的主题词的算法,并对算法进行了更深层次的改进,加上考虑逆向、中间向前后抽取对候选词位置因素的影响的创新性想法,而后对想法实施了研究和实验。经实验证明,基于本算法的主题词抽取达到了较良好的效果。
关键词 主题词;主题词抽取;TFIDF
目录
摘要
Abstract
1 绪论-1
1.1主题词抽取的意义-1
1.2主题词的应用-1
1.2.1文档管理-1
1.2.2文本分类和聚类-1
1.2.3自动摘要-2
1.3目前我国主题词提取算法的现状-2
1.4主题词抽取面临的主要问题-3
1.5本章小结-3
2主题词抽取研究现状-4
2.1“主题”问题的研究-4
2.2“词”问题的研究-5
2.3主题词的分类问题-5
2.3.1主次词语的含义及定义-5
2.3.2主题短语的含义及定义-6
2.4本章小结-6
3主题词抽取TFIDF算法研究简介-7
3.1 TFIDF算法简介-7
3.2 TFIDF算法原理-7
3.2.1词频TF概念-7
3.2.2 IDF思想简介-8
3.2.3 TFIDF计算举例-8
3.3 TFIDF算法的不足-8
3.4本章小结-8
4 TFIDF算法的改进-10
4.1改进的算法思想-10
4.2词语权重计算-10
4.3算法流程图-12
4.4准确度测试结果-12
4.5文本逆向抽取-15
4.5.1逆向抽取流程图-15
4.5.2逆向抽取权重值计算-16
4.6文本中间向前后抽取-17
4.6.1中间向文章前后抽取流程图-17
4.6.2中间向前后抽取权重值计算-17
4.6.3抽取结果比较-18
4.7综合考虑后的抽取准确度-19
4.8本章小结-19
5主题词自动抽取系统实现-20
5.1系统需求-20
5.2系统功能图-20
5.3数据流图-21
5.4界面设计及各控件功能-21
5.4.1系统界面-21
5.4.2系统操作-22
5.5本章小结-24
结论-25
致谢-26
参考文献-27
附录-28