在本论文中主要考虑类数据不平衡的多类分类问题。由于分类算法在处理不平衡数据集分类问题时会偏向多数类,导致对少数类的分类精度偏低,因此有必要对不平衡数据进行处理,使整体和少数类的分类精度得以提高。针对多类分类问题,目前在用于解决两类分类问题的支持向量机算法的基础上已经发展起来了一系列多类分类算法,支持向量机决策树算法就是其中之一。通过改进支持向量机决策树算法提出新的多类分类算法。
本论文的主要研究工作包括以下几方面:
(1)目前大多数基于信息度量的特征选择算法都是在整个样本空间上进行的,一旦样本数据集确定后,信息熵在整个样本空间上是固定不变的,显然这没有考虑到特征选择是一个动态变化的过程,因此本文在信息熵变化过程中对特征不断优化,通过对动态变化的信息熵估值,选出最优特征子集。
(2)在数据层面改善数据的不平衡性。由于过采样方法通常会增加大量重复样本,从而增加分类训练时间。而欠采样则会导致部分有用信息的丢失。因此本文在邻域清理欠采样方法的基础上进行改进,对多数类样本集的边界数据通过一定的规则进行筛选,对于少数类样本结合SMOTE方法,有效避免了采用单种采样方法存在的缺陷。这是本论文的第一个创新之处。
(3)支持向量机决策树多分类方法在分类过程中,由于决策树上一节点的错分会增加下一节点的误差,造成误差累积现象;另外数据集类别间的不平衡性,也会使分类超平面发生偏移,导致误差累积现象更加严重。因此本文在基于决策树的SVM多分类方法的基础上进行改进,利用改进的采样方法均衡样本数据集,并在决策树生成的过程中不断优化,对优先分离的数据集进行再分类,以提高决策树节点处的分类精度,构建合理的决策树,减少“误差累积”。这是本论文的第二个创新之处。
(4)将本文改进的支持向量机决策树多类分类方用于5个UCI标准数据集上进行数值实验。实验结果显示:采用改进的支持向量机决策树多类分类算法可以提高整体和少数类的分类精度。虽然在训练和分类时间上有所增加,但仍在可接受的范围内。此外本文将提出的新方法应用到葡萄酒质量分类的问题中进行实证研究,结果显示该算法的分类效果优于基于一对一和有向无环图的支持向量机算法。