关键词:
指代消解
人称代词
典籍
古代汉语
摘要:
在中华文化源远流长的历史长河中,留下了浩如烟海的珍贵古汉语典籍文献。典籍文本包含着丰富的历史信息,记载着前人非凡出彩的哲思,它奠定了民族文化的根基,对传统文化的弘扬与传承至关重要。随着信息时代的发展,针对民族文化的重要载体——古代汉语典籍文本,如何运用古文信息处理技术对古代汉语典籍进行深度挖掘与知识发现有着非凡意义,不仅有助于传统文化的发扬与传承,同时也有利于提升国家文化软实力。人称代词是在自然语言中指代人物实体的代词,一个完整的指代关系由用于指向指代词的“照应语”和所指内容,即“先行语”共同组成。古汉语典籍中的人称代词与现代汉语虽功用一致,但由于古代汉语与现代汉语在语法、字词等方面存在诸多差异,在人称代词方面也存在数量上、单复数、以及词性兼类的诸多差别。因此正确识别出古汉语中的人称代词对古代汉语典籍研究的深度挖掘有着不容小觑的作用,同时人称代词识别的性能对指代消解的性能起着影响作用。本文研究探讨古汉语典籍中出现的句内人称代词指代消解问题,分别采用传统机器学习与深度学习的方法对人称代词的识别、指代消解方法进行对比研究。本文的重点工作内容为以下三点:(1)构建人称代词指代消解语料库。本文以电子化《史记》为语料,经南京农业大学词性标注集标注,通过分析古代汉语人称代词与其指代关系的特点,并根据标注集的缺陷进行修改,制定了指代消解语料标注规范,完成了本文实验所需的人称代词指代消解语料库。该语料库基于古代汉语并富含人称信息和句内指代关系,能够满足本文实验的需要。(2)采用基于传统机器学习方法的CRF模型和深度学习的BERT模型进行典籍人称代词识别实验,这一实验为后续章节基于深度学习方法的人称代词指代消解研究奠定基础。首先介绍了 CRF模型框架,其次对特征选择及特征模板进行了介绍,使用不同分割方法、引入词性特征探究识别效果。再次介绍基于深度学习的BERT模型,并用于无词性字单位语料训练,最后对各个实验结果进行对比评价。实验结果表明在CRF实验中引入词性特征,采用词单位的方式进行人称代词识别,效果最佳,F均值达91.83%。在同等无词性字单位分割语料的情况下,BERT深度学习模型识别效果优于CRF模型,F均值达90.85%,同样适用于小规模语料的人称代词识别。(3)采用Bi-LSTM-CRF模型、BERT模型进行人称代词指代消解。首先在Bi-LSTM-CRF实验中,结合Word Embedding获取深层隐性语义特征,进行了 4次实验,形成3组对照实验,一是无词性词单位语料和无词性字单位语料进行实验,二是在无词性词单位的语料基础上增加attention机制,第三组对照实验是给词单位语料增加了词性特征,与之前的无词性词单位语料实验进行对比,以探索词性特征对人称代词指代消解效果的影响。结果证明,在无词性的情况下,词单位语料的实验效果优于字单位实验语料。Attention机制的加入对指代消解效果有所提升。而词性特征的增加能够提升模型的消解效果最优。其次根据训练语料的情况将BERT模型调整至实验最佳参数进行指代消解实验,经过十折交叉验证,消解效果F均值82.43%。最后对各个实验的消解结果进行可视化分析,结果表明在Bi-LSTM-CRF模型中引入词性特征,采用词单位的分割方式进行实验消解效果最佳,F均值达84.00%。