蛋白质在生命活动过程中扮演着重要的角色,其功能的执行是通过蛋白质-蛋白质之间的相互作用表现出来的,蛋白质-蛋白质相互作用(PPIs)的研究一直是蛋白质组学的研究重点。传统的生物实验方法,由于一次只能对少量的蛋白质对进行验证,已经不能满足日益增长的实验需求。计算方法是用于预测PPIs的有效方法,已经成为研究人员的首选。
本文基于蛋白质的序列,构建有效的预测蛋白质相互作用的方法。首先,准确地提取序列中蕴含的特征,区别存在相互作用的蛋白质对和不存在相互作用的蛋白质对。本文选取了氨基酸组成、氨基酸理化性质组成和自协方差3种蛋白质序列特征提取方法,并对其进行了实验对比研究,仅仅使用单一的特征提取方法,对蛋白质对的识别具有一定的特异性,预测精度也有待提高。然后基于支持向量机分别构建3个互相独立且与序列编码方法一对应的基分类器,最后使用了集成学习理论中的Stacking方法融合3个基分类器从而间接的融合多种蛋白质序列特征提取方法。在9952对酿酒酵母蛋白质数据集上进行实验,本文提出的方法取得了86.74%的预测精度,优于现有方法的平均水平,同时有效地降低了单一特征提取方法的特异性;在独立测试集上,该方法同样具有优秀的表现。实验结果表明,本文提出的方法有效地提高了蛋白质相互作用预测的准确率。