关键词:
数据挖掘
数据分类
偏最小二乘
神经网络
决策树
摘要:
21世纪是知识经济的时代,面对数据爆炸而知识贫乏的现实,人们提出数据挖掘思想,
并将其广泛应用到数据库管理的各个领域。数据挖掘是一类深层次的数据分析方法,包括
关联分析、聚类分析、孤立点分析、概念描述和分类与预测等方法。分类是数据挖掘的一
个重要课题,是构造分类模型并应用于重要数据类的区分和趋势预测的过程的总称。
本文首先简要分析了数据挖掘以及分类算法研究的现状,从而提出一些改进的分类算
法。着重从数据预处理,神经网络和决策树三方面对分类算法进行研究和改进。
数据预处理是数据挖掘中不可或缺的一部分,是对数据进行初步地清理和归纳,为分
类算法提供目标数据。本文分析了几种数据预处理技术,针对分类算法,提出了应用偏最
小二乘思想(PLS)的主成分分析法对数据进行降维操作。同时利用模糊聚类方法对重要数
据类进行离散化,形成分类属性。
神经网络是目前较新的一种分类器,本文采用BP神经网络、RBF神经网络和LVQ神经
网络来构造网络分类器。这类分类器的优点在于分类较为精确,但是规则提取较为困难,
本文的主要工作旨在提高分类器的分类精度,对规则提取部分涉及较少。
决策树是常用的数据分类方法,本文分析了几种常用的决策树算法,从算法的本质出
发,发现决策树的生成与样本的选取有很大关系。因此提出基于样本选取的决策树改进算
法。该算法在不改变传统方法的基础上,旨在分析输入输出的关系调整样本,从而得到较
优的决策树规则。
最后,本文总结了以上方法,阐述了其优点和不足,提出了今后的工作以及研究方向。