• 0

    用户访问量

  • 0

    注册用户数

  • 0

    在线视频观看人次

  • 0

    在线实验人次

自然语言的词类和词类标注

作者:云创智学|发布时间:2022-04-28 13:23:25.0|来源:云创智学

词类又称为POS(Part-of-Speech)能够提供关于单词及其邻近成分的信息。

词类标注(Part-of-Speech tagging或POS tagging ),简称标注,指给语料库中的单词指派词类标记的过程。这些标记也用来标注标点符号,因此自然语言的标注过程与计算机语言的词例还原(tokenization)过程是一样的。

英语词类标注中的常用标记集:

Penn Treebank的标记集包含45个标记,是小标记集; 

CLAWS(the Constituent Likelihood Automatic Word-tagging System)使用的标记集C5包含61个标记,是中型的标记集,用于标注英国国家语料库(the British National Corpus,简称BNC);

第三个标记集是包含146个标记的大型标记集C7。

联系方式
企业微信