• 0

    用户访问量

  • 0

    注册用户数

  • 0

    在线视频观看人次

  • 0

    在线实验人次

词义消歧的基本思路

作者:云创智学|发布时间:2022-03-28 10:27:10.0|来源:云创智学

词义消歧的基本思路:

自然语言中一个词具有多种含义的现象非常普遍。如何自动获悉某个词的多种含义;或者已知某个词有多种含义,如何根据上下文确认其含义,是词义消歧研究的内容。


1、基于词典的词义消歧

​   基于词典的词义消歧方法研究的早期代表工作是M.Lesk 于1986 提出的。给定某个待消解词及其上下文,该工作的思想是计算语义词典中各个词义的定义与上下文之间的覆盖度,选择覆盖度最大的作为待消解词在其上下文下的正确词义。如果一个词没有语义范畴信息,我们可以求助于它的一般语义描述。基于词典的消歧方法一般有三种:

(1)基于语义定义的消歧

认为词典中词条本身的定义就可以作为判断其语义的一个很好的依据条件。


(2)基于类义词典的消歧

   上下文词汇的语义范畴大体上确定了这个上下文的语义范畴,并且上下文的语义范畴可以反过来确定词汇的哪一个语义被使用。

(3)基于双语词典的消歧

   利用双语对照词典帮助消歧。指的是第二语言语料库翻译基础上的消歧。


2、有监督词义消歧

   (1) 基于朴素贝叶斯分类器的词义消歧方法

   朴素贝叶斯的思想基础是这样的:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。

   (2) 基于最大熵的词义消歧方法

   基于最大熵的词义消歧方法基本思路是这样的:每个词表达不同含意时其上下文(语境)往往不同,即不同的词义对应不同的上下文。因此,可以将词的上下文作为特征信息利用最大熵模型对词的语义进行分类。



3、无监督和半监督词义消歧

   虽然有监督的消歧方法能够取得较好的消歧性能,但需要大量的人工标注语料,费时费力。为了克服对大规模语料的需要,半监督或无监督方法仅需要少量或不需要人工标注语料。一般说来,虽然半监督或无监督方法不需要大量的人工标注数据,但依赖于一个大规模的未标注语料,以及在该语料上的句法分析结果。另一方面,待消解词的覆盖度可能会受影响。




联系方式
企业微信