关键词:
语义语法学
语义词类
句法语义范畴
未登录词
知识库
语义角色
摘要:
当前,世界各国学者都十分重视自然语言处理的知识资源的建设,建立了许多带各种标注信息的语料库,以适应更为深入的语言研究和自然语言处理系统的需要。在中文信息处理方面,汉语标注资源急需的是句子级的资源,需要一种可以描述出句子中词语与词语之间的深度语义信息的标注语料库。因此,探求半自动、甚至自动地建设大规模深度语义标注语料库的策略、模型、技术及方法显得极为迫切。语义分析技术是自然语言处理领域中最重要也是最为困难的问题。如何实现有效、深入、自动的句子语义分析,一直是国内外从事自然语言处理的研究者们所关注的重要目标。目前,自然语言处理领域的语义研究主要集中在浅层语义分析。浅层分析虽然降低了语义分析的难度,但是只解决了动核和语义角色的配置问题,对于情态成分以及名核结构所承担角色的内部语义关系并未进行标注,因此还不是句子语义结构的完整揭示。在我们的深度语义标注语料库中,主是是针对九年制中小学语文课本语料进行语义词类和句法语义范畴标注。语义词类指词汇的所属义类。句法语义范畴指语块所对应的语义范畴信息,包括核心范畴、修饰限定范畴、情态范畴等。目前,国内外语义词典中的语义分类体系更多的都是基于自然科学或常识,与这些基于常识的各种语义分类相比,我们研制的语义词类其突出特点是语义分类取决于句法语义分析的需要,可以解决一些仅靠句法分析难以解决的问题,形成了一套面向计算机语言处理的独特的标注体系,对中文信息处理中的句法语义自动分析具有重要意义。根据该指导思想,我们在语义角色标注方法中,使用了一种与传统方法不同的处理策略,我们称之为基于语义词类和语义句型框架的语义角色标注方法,这一方法将汉语语义角色标注从节点的分类问题转化为序列标注问题,由于避开了传统的句法分析环节,使得语义角色标注摆脱了对句法分析的依赖,从而避开了汉语句法分析器造成的时间和性能限制。经测试,新的方法可以取得较高的准确率,并且大大节省了分析的时间,有利于实际应用。本文围绕现代汉语深度语义标注语料库的建设和应用,进行了一系列的相关技术研究,主要成果如下:1、针对语料库的建设和应用需要,研制开发了语义词类词典制作工具、语义词类自动标注工具、语义词类检索统计工具、句法语义范畴检索统计工具、语义词类与句法语义范畴对应关系检索统计工具、句型抽取统计工具、句模抽取统计工具、句法语义范畴辅助标注工具等应用软件,为深度语义标注语料库的建设和应用提供了很好的技术支持。2、收集、制作了 4万多条的语义词类词典,标注了词性、词类和频率等信息,为语义词类的自动标注提供了语言知识支持。3、针对语义词类的自动标注,设计了基于隐马模型的标注算法,结合基于动态规划的Viterbi算法,在训练语料规模偏小、数据稀疏较严重的情况下仍然取得了封闭测试正确率94.3%,开放测试正确率89.1%的效果。4、针对语义词类标注中的未登录词问题,提出了基于知网概念定义的未登陆词处理方案。经研究发现,语义词类系统和知网概念存在的对应关系主要体现在指称类-实体类、陈述类-事件类两个方面,并据此制定了相应处理规则。5、针对句法语义范畴中的语义角色标注,在总结比较现有主流算法的基础上,提出了基于语义词类和语义句型框架的语义角色标注算法,采用IOB策略,利用CRF模型,结合优化的特征参数,取得了分类精度超过91.8%,系统F值达78%的较好成绩。6、基于已标注的深度语义标注语料库,通过开发相关工具软件,建立了语义词类与句法语义范畴对应关系知识库、语义句型框架库、语义句模知识库,为后续的句法语义研究和应用奠定了更好的基础。基于语义词类自动标注和句法语义范畴中的语义角色标注研究,从实践上验证了语义语法学在自然语言处理中的可行性和实用性。本文的研究成果进一步丰富了语义语法学理论与方法,为实现汉语句子深层语义分析提供了新的途径,为自然语言处理领域基于语义分析的应用系统提供了一种新的技术支撑。