• 0

    用户访问量

  • 0

    注册用户数

  • 0

    在线视频观看人次

  • 0

    在线实验人次

文本分词算法概念以及有哪些常用算法

作者:云创智学|发布时间:2021-11-29 11:29:48.0|来源:云创智学

一、文本分词算法定义:

文本分词是将字符串文本划分为有意义的单位的过程,如词语、句子或主题。

中文分词也叫作切分,是将中文文本分割成若干个独立、有意义的基本单位的过程。


二、分词算法基本的工作原理:

是根据输入的字符串文本进行分词处理、过滤处理,输出分词后的结果,包括英文单词、中文单词及数字串等一系列切分好的字符串。


三、中文分词算法可以分为以下3类:

1、基于字符串匹配的分词方法

它是将待处理的中文字符串与一个“尽可能全面”的词典中的词条按照一定的规则进行匹配,若某字符串存在于词典中,则认为该字符串匹配成功。

2、基于统计的分词方法

由于词是特定的字组合方式,那么在上下文中,相邻的单字共同出现的频率越高,则在该种字组合方式下就越有可能是构成了一个词。

3、基于理解的分词方法

该方法通过语义信息和语句信息来解决歧义分词问题,并且在分词的同时进行语义和句法分析。


四、各种分词方法的优劣对比表

联系方式
企业微信