自然语言的词类和词类标注
词类又称为POS(Part-of-Speech)能够提供关于单词及其邻近成分的信息。词类标注(Part-of-Speechtagging或POStagging),简称标注,指给语料库中的单词指派词类标记的过程。这些标记也用来标注标点符号,因此自然语言的标注过程与计算机语言的词例还原(tokenization)过程是一样的。英语词类标注中的常用标记集:PennTreebank的标记集包含45个标记,是小标记集;CLAWS(theConstituentLikelihoodAutomaticWord-taggingSystem)使用的标记集C5包含61个标记,是中型的标记集,用于标注英国国家语料库(theBritishNationalCorpus,简称BNC);第三个标记集是包含146个标记的大型标记集C7。
作者:云创智学 来源:云创智学
发布时间:2022-04-28 13:23:25