关键词:
集成学习
子分类器
基因数据
机器学习方法
子空间优化
摘要:
当前,集成学习是机器学习和数据挖掘领域中热门的研究方向。集成学习是使用一系列学习器进行学习,再按照某种规则把各个学习器结果进行整合从而获得比单个学习器更好的学习效果的一种机器学习方法。集成学习在生产、科研和生活中有着广泛应用前景。本文主要在子空间的优化以及子分类器的选择上对集成学习作了较深入的研究,并将这些改进的算法应用到基因数据分析中,主要工作包括如下几个方面:\n 1.提出了一种基于遗传算法的子分类器选择分类集成算法GASS。为了解决由不同的子空间生成的子分类器(Subclassifier)之间存在的相关性或冗余性对分类过程产生不必要时间与空间消耗以及对分类结果的影响,探索了如何在这些子分类器中选择尽量少的分类器而分类集成的效果尽量好,此方法叫做子分类器选择(SubclassifierSelection)。从实验结果看,GASS在时间开销和分类精确度方面都达到了比较好的效果,本文对遗传算法中适应度函数的参数也做了相应讨论与分析。\n 2.提出了一种基于Simba的子空间优化算法FSEL。该算法利用基于假设间隔的特征选择算法Simba对数据集的各个特征按其贡献度进行排序,得到一个特征贡献度序列,并对这个序列进行分段,并对各个段区设定选择特征的比例,这样既可以按设定取到贡献度大的特征,也能做到对不同贡献度的特征的选取保证了分类器的差异性,以达到最好的分类效果。实验结果表明分类结果得到了较大提高,并且对分段段数和段区比例等参数都做了不同的设置并对结果进行讨论分析。\n 3.将GASS算法和FSEL算法应用到高维基因数据分析中。GASS算法通过将高维特征进行子空间选择,并过滤掉相关性大的子分类器;FSEL算法对高维特征进行子空间优化,特征子空间尽量选择贡献度较大的特征,忽略贡献度很小的特征,并且在不同的贡献度上做到平衡。实验效果表明GASS算法和FSEL算法对于高维基因数据也有较好的效果。