• 0

    用户访问量

  • 0

    注册用户数

  • 0

    在线视频观看人次

  • 0

    在线实验人次

自然语言处理原理词性标注

作者:云创智学|发布时间:2021-12-21 13:55:52.0|来源:云创智学

自然语言处理原理词性标注:

词性标注(Part-of-speech Tagging,POS)是基于机器学习的方法给句子中每个词一个词性类别的任务。这里的词性类别可能是名词、动词、形容词或其他。词性作为对词的一种泛化,在语言识别、句法分析、信息抽取等任务中有重要作用。下面的句子是一个词性标注的例子。其中,v代表动词、n代表名词、c代表连词、d代表副词、wp代表标点符号。哈尔滨工业大学LTP系统词性标记集中采用863词性标注集。


如同分词一样,基于机器学习的方法依然是当前分词的最有效手段,本节简要概述以基于隐马尔可夫模型的分词算法。一个句子经过分词后是一组词序列,这是我们可以观察到的,其实在词序列的背后还有一个词性序列。比如,一个词序列“小赵是个勤奋的学生”,隐含还有一个词性序列“名词动词量词形容词名词标点”。因此,对于给定的词序列,对词性的标准过程就是求与词序列对应的具有最大概率的一个词性序列。


联系方式
企业微信