关键词:
文本挖掘
网络平台
知识服务
特征词选择
语义聚类
算法理论
摘要:
“自动化学科创新思想与方法研究”课题对影响国内自动化学科发展的因素进行系统分析,并利用各冈素之间的相互联系构建自动化学科的知识体系,通过对已有思想与方法的形成和发展规律进行总结,对学科发展方向进行前瞻性预测。该课题的最终目标是在学科知识体系的基础上开发学科知识服务网络平台,为相关领域的研究人员和技术人员提供知识服务,进而推动知识创新。\n 知识要素(包括研究对象、研究方法、研究工具、研究人员、研究机构等)是建设学科知识体系的基本要素,因此知识要素获取是该课题的首要环节。本文以课题中的知识要素获取需求为研究课题,在大量文献调研和实验的基础上设计和实现了用于知识要素抽取的文本挖掘系统,并在项目中得到很好的应用。论文的主要工作和贡献如下:\n ①文本分类和特征词选择技术在数据清洗中的应用。本文实现了文本分类的文档向量模型(VSM),将其用于区分自动化学科和非自动化学科的文献;提出了基于卡方拟合优度的特征词选择方法(chifit),该方法能够使用较低的特征维度达到较好的分类效果。\n ②提出了基于编辑距离二次计算的关键词语义聚类算法。项目数据中有大量文献关键词在形态上相似且语义上相同,该算法充分利用这一特性将语义聚类问题转换成形态聚类问题。\n ③提出并实现了知识族谱构建方案。该方案把与被查询知识点在时间上可能存在继承、发展、演变关系的知识点以亲疏程度和时间切片为依据展现出来,用以辅助用户进行文献检索和知识理解。\n ④提出了基于距离属性的二叉分裂算法。该算法属于分裂式层次聚类算法,算法的执行过程即是层序建立二叉树的过程,叶子结点就是最终的聚类。该算法有效解决了人物名称与机构名称对齐问题。\n ⑤提出了基于图聚类的人名消歧算法。汉语巾存在大量人名重复现象,给准确统计学者的学术成果带来困难。该算法将名字视为图上的结点,根据两个结点之间的属性相似情况,决定是否加边,最后根据图的连通特性,将每一个连通分量视为指向同一人物实体的聚类。\n ⑥提出了一种无监督的机构名称归一化算法,该算法充分利用同一个人物实体所涉及的机构名称之间的关系,提取一级机构名称,不需要事先准备规范化的机构名称列表,也不需要定义复杂的机构名称结构规则。