摘 要:系统进化分析是生物信息学中的重要研究领域,主要是从一组同源的DNA或蛋白质序列出发,分析有机体之间的亲缘关系,进而构建反映物种进化关系的进化树.寻找同源关系一直是生物信息领域的重要组成部分,针对小数据量的有机体,距离法、似然法和简约法是构建进化树的主要方法;但是随着分子数据的不断累积,传统的算法越来越不适应分子进化关系的挖掘和分析.伴随着人类基因组计划的逐步深入,大量未标志的序列涌现,急需找到有效的方法来计算序列之间的“进化距离”,判别蛋白质序列间的远近关系,从而找到同源蛋白质,分析和预测蛋白质的结构功能,最终为人类了解生命现象提供理论支持.
本文应用粒计算理论来约简不断增长的分子数据,并且保留有机体的主要属性.粒计算利用粒子,即类或者集群,对模糊、不确定、部分真和大数据的信息处理有着不可替代的作用,其在数据分析、数据挖掘和智能数据处理等方面的有着广泛的应用.
在第二章中,介绍了粒计算的发展和应用和其主要研究方向:粒度、粒和层和分析粒子之间的关系.深入研究了商空间理论方法,并且提出了基于模糊邻近关系的系统进化树构建方法.
在第三章中,针对病毒蛋白的同源分析,利用统计方法,给出了一种新的方法来表示蛋白质序列.将长序列转换到40D向量,保留了氨基酸及其特性,并且结合了二肽的信息,同时给出了两蛋白间模糊邻近关系的度量计算,提出了用完全图聚类的方法对数据对象的处理方法,挑选出蛋白代表,进行进化树的构建.本章对2万多条H1N1病毒的HA蛋白序列,进行粗粒化的信息提取得到了33种病毒,基于模糊邻近关系对这些病毒进行聚类生成系统进化树.通过对进化树的分析得出H1N1病毒的变异与爆发时间、地域等因素有一定关系.
在第四章中,针对不同的病毒蛋白,基于距离度量的标准进行模糊粒度聚类.根据商空间理论,将不同粒度合成聚类结果.本章提出了基于Gaussian型函数定义了商空间的距离函数的模糊聚类算法,针对(16个H亚型和10个N亚型)近6万条病毒蛋白序列,进行基于距离度量的模糊聚类,挑选出39条代表蛋白,构建主干进化树.为未标志的蛋白序列提供比对标本,分析发现,基于商空间的距离度量聚类法适用于处理大数据量的样本.
关键词:进化树;同源;大数据;粒计算
目 录
摘 要
ABSTRACT
第1章 绪论-1
1.1 研究背景及意义-1
1.2 系统发生树-2
1.3 粒计算-3
1.4 本文研究内容与组织结构-4
第2章 粒计算的发展和应用-5
2.1 粒计算理论的研究-5
2.2 商空间理论基础-5
2.3基于归一化距离的系统进化树构建-7
第3 章 病毒蛋白进化树的构建和分析-9
3.1 数据来源与方法-10
3.1.1 数据来源-10
3.1.2 序列提取特征向量-10
3.1.3 基于内积的模糊邻近关系计算-11
3.1.4 基于距离的完全图聚类方法-11
3.1.5 挑选病毒序列代表-12
3.2 数据处理步骤-12
3.3 结果与分析-12
3.4 讨论与结论-15
第4章 模糊商空间聚类分析-17
4.1 Gaussian型距离函数-17
4.2 数据处理步骤-18
4.3 结果与分析-18
4.4 讨论和结论-21
第5章 结论与展望-23
5.1结论-23
5.2不足之处及未来展望-23
参考文献-25
致 谢-27