关键词:
机器学习
交叉销售
指纹图像分割
基于内容的图像检索
相关特征映射
摘要:
随着信息技术的高速发展,人们已在很多应用领域积累了大量的数据,对这些数据进行分析并学习数据中蕴含的知识,成为了这些应用领域的共同要求。机器学习是当前人工智能领域的热点研究方向之一,它本身也是一个应用驱动的学科。已有的研究成果表明,很多应用问题采用机器学习的方法来解决是一种行之有效的渠道或手段。本文针对若干典型的应用问题,采用或提出合适的机器学习方法进行处理,取得了较好的效果。本文工作主要包括以下四个方面的内容: 1.类别不平衡学习、代价敏感学习及其在交叉销售上的应用研究。交叉销售已成为企业盈利的重要手段,如何解决其数据中普遍同时存在的类别不平衡和代价敏感问题是准确预测交叉销售客户的关键,也是难点之一。为解决上述应用问题,本文结合类别不平衡学习和代价敏感学习技术,提出了一种使用最优阈值投票的方法。该方法首先结合过抽样和欠抽样技术获取多个类别平衡的训练数据集,然后在每个平衡数据集上分别训练得到多个底层学习器,最后利用所提出的基于最优阈值的投票集成方法集成底层学习器得到决策模型。在PAKDD 2007数据挖掘竞赛的交叉销售数据集上的实验验证了该方法的有效性。 2.半监督学习及其在指纹图像分割上的应用研究。指纹图像分割是自动指纹识别系统预处理中的关键技术之一。传统的分割方法需要大量已标记的指纹图像作为训练数据,但实际应用中获取标记样本比较繁琐和耗时。本文根据半监督学习的思想,提出了一种基于协同训练的指纹图像分割方法,以综合利用已标记和未标记的指纹图像。该方法在基于像素水平的Coherence、Mean、Variance特征体系下,使用标记盒和支持向量机作为基分类器进行协同训练。在FVC 2002指纹库上的实验结果表明,该方法能够在标记信息较少的情况下取得较好的性能,并且在处理低质量指纹图像时也表现出了较强的鲁棒性。 3.距离度量学习及其在基于内容的图像检索(content-based image retrieval,CBIR)上的应用研究。在CBLR应用中,一个关键步骤就是度量图像间的距离或相似度。距离度量学习可以为给定的任务学习到恰当的距离度量准则并已被成功地应用于很多领域。然而,现有的多数距离度量学习均是离线式的方法,并不适用于CBIR的在线应用环境;现有的少数在线式距离度量学习方法也无法有效地利用图像库中充裕的未标记图像信息。为解决上述问题,本文提出了一种在线式的半监督距离度量学习方法并应用至CBIR中。该方法针对每个用户查询及其后续的相关反馈学习一个距离度量准则。检索任务被设计成一系列的凸优化问题,本文也给出了闭式解以实现快速求解。该方法根据用户的查询和反馈信息来产生约束信息,并基于Qsim的思想有效利用了图像库中的未标记图像。在COREL图像库上的实验也验证了该方法的有效性。 4.相关特征映射及其在CBIR上的应用研究。CBIR系统的最终目的就是依据用户的查询为用户搜索相关图像,其搜索的准确性和可靠性在很大程度上取决于系统内部的排序方法。本文提出了一种基于相关特征映射技术的排序方法。分析显示,映射之后的空间能更好地适用于CBIR的排序任务。本文也设计了一个新的排序算法以快速有效地在相关特征空间中实现排序和检索。该方法避免了高耗费的距离计算,这也大大不同于主流的基于距离或相似度度量的排序方法。在COREL图像库上的实验也表明该方法在检索性能和时间消耗上均优于现有方法。