基于粒计算的进化树的建模方法及应用_信息与计算科学.rar

  • 需要金币1000 个金币
  • 资料包括:完整论文
  • 转换比率:金钱 X 10=金币数量, 即1元=10金币
  • 论文格式:Word格式(*.doc)
  • 更新时间:2015-03-23
  • 论文字数:15816
  • 当前位置论文阅览室 > 毕业设计 > 信息与计算科学 >
  • 课题来源:(周老大)提供原创文章

支付并下载

摘 要:系统进化分析是生物信息学中的重要研究领域,主要是从一组同源的DNA或蛋白质序列出发,分析有机体之间的亲缘关系,进而构建反映物种进化关系的进化树.寻找同源关系一直是生物信息领域的重要组成部分,针对小数据量的有机体,距离法、似然法和简约法是构建进化树的主要方法;但是随着分子数据的不断累积,传统的算法越来越不适应分子进化关系的挖掘和分析.伴随着人类基因组计划的逐步深入,大量未标志的序列涌现,急需找到有效的方法来计算序列之间的“进化距离”,判别蛋白质序列间的远近关系,从而找到同源蛋白质,分析和预测蛋白质的结构功能,最终为人类了解生命现象提供理论支持.

本文应用粒计算理论来约简不断增长的分子数据,并且保留有机体的主要属性.粒计算利用粒子,即类或者集群,对模糊、不确定、部分真和大数据的信息处理有着不可替代的作用,其在数据分析、数据挖掘和智能数据处理等方面的有着广泛的应用.

在第二章中,介绍了粒计算的发展和应用和其主要研究方向:粒度、粒和层和分析粒子之间的关系.深入研究了商空间理论方法,并且提出了基于模糊邻近关系的系统进化树构建方法.

在第三章中,针对病毒蛋白的同源分析,利用统计方法,给出了一种新的方法来表示蛋白质序列.将长序列转换到40D向量,保留了氨基酸及其特性,并且结合了二肽的信息,同时给出了两蛋白间模糊邻近关系的度量计算,提出了用完全图聚类的方法对数据对象的处理方法,挑选出蛋白代表,进行进化树的构建.本章对2万多条H1N1病毒的HA蛋白序列,进行粗粒化的信息提取得到了33种病毒,基于模糊邻近关系对这些病毒进行聚类生成系统进化树.通过对进化树的分析得出H1N1病毒的变异与爆发时间、地域等因素有一定关系.

在第四章中,针对不同的病毒蛋白,基于距离度量的标准进行模糊粒度聚类.根据商空间理论,将不同粒度合成聚类结果.本章提出了基于Gaussian型函数定义了商空间的距离函数的模糊聚类算法,针对(16个H亚型和10个N亚型)近6万条病毒蛋白序列,进行基于距离度量的模糊聚类,挑选出39条代表蛋白,构建主干进化树.为未标志的蛋白序列提供比对标本,分析发现,基于商空间的距离度量聚类法适用于处理大数据量的样本.

关键词:进化树;同源;大数据;粒计算

 

目 录

摘 要

ABSTRACT

第1章 绪论-1

1.1 研究背景及意义-1

1.2 系统发生树-2

1.3 粒计算-3

1.4 本文研究内容与组织结构-4

第2章 粒计算的发展和应用-5

2.1 粒计算理论的研究-5

2.2 商空间理论基础-5

2.3基于归一化距离的系统进化树构建-7

第3 章 病毒蛋白进化树的构建和分析-9

3.1 数据来源与方法-10

3.1.1 数据来源-10

3.1.2 序列提取特征向量-10

3.1.3 基于内积的模糊邻近关系计算-11

3.1.4 基于距离的完全图聚类方法-11

3.1.5 挑选病毒序列代表-12

3.2 数据处理步骤-12

3.3 结果与分析-12

3.4 讨论与结论-15

第4章  模糊商空间聚类分析-17

4.1 Gaussian型距离函数-17

4.2 数据处理步骤-18

4.3 结果与分析-18

4.4 讨论和结论-21

第5章 结论与展望-23

5.1结论-23

5.2不足之处及未来展望-23

参考文献-25

致  谢-27