一、文本分词算法定义:
文本分词是将字符串文本划分为有意义的单位的过程,如词语、句子或主题。
中文分词也叫作切分,是将中文文本分割成若干个独立、有意义的基本单位的过程。
二、分词算法基本的工作原理:
是根据输入的字符串文本进行分词处理、过滤处理,输出分词后的结果,包括英文单词、中文单词及数字串等一系列切分好的字符串。
三、中文分词算法可以分为以下3类:
1、基于字符串匹配的分词方法
它是将待处理的中文字符串与一个“尽可能全面”的词典中的词条按照一定的规则进行匹配,若某字符串存在于词典中,则认为该字符串匹配成功。
2、基于统计的分词方法
由于词是特定的字组合方式,那么在上下文中,相邻的单字共同出现的频率越高,则在该种字组合方式下就越有可能是构成了一个词。
3、基于理解的分词方法
该方法通过语义信息和语句信息来解决歧义分词问题,并且在分词的同时进行语义和句法分析。
四、各种分词方法的优劣对比表