在后基因组时代,最主要的挑战是基因组注释。作为基因组注释的重要研究部分,基因功能注释有着举足轻重的地位。为人类更好的认识基因,探索生命的本源提供必要的依据。人类基因组测序工程产生了大量的全基因组数据,这些数据为基因功能注释课题的研究提供了丰富的生物学信息。然而,从大量的信息中获取有用的知识,人工的方法已经不能胜任,需借助计算的方法进行机器学习。本文采用多示例多标签的学习方法对该任务进行研究,主要的研究工作如下:
首先,本文从基因表达模式的角度对基因功能进行预测,细致地分析研究了基因功能注释数据库中基因功能之间的关系及其推导过程。针对基因功能注释数据库中基因与功能之间多对多映射关系的特点,本文引入多示例多标签学习框架,并对多示例多标签学习框架进行研究分析。
其次,针对多示例多标签学习框架的退化策略会退去基因之间的相关性的问题,本文结合多示例学习框架与层次聚类算法,提出了多示例层次聚类算法。该算法以基因表达相关性为基础,将拥有相同基因功能的基因的时序表达数据子集视为该基因功能的示例集合进行多示例构建。使用基因时序表达数据之间的皮尔森相关系数计算多示例之间的距离,并通过最大化各基因功能类中所包含的基因之间的相关性进行聚类约束,使得基因之间的相关性能在聚类过程中得到很好的保持。
最后,为验证算法的有效性,本文在酿酒酵母的四个基因时序表达谱中进行实验,先使用多示例层次聚类算法将多示例多标签任务退化成单示例多标签任务,再采用多标签支持向量机或多标签K近邻算法进行求解。实验表明该算法能在多示例多标签学习框架的退化过程中很好的保持着基因之间的相关性,并拥有着良好的性能。