文本分词算法概念以及有哪些常用算法
一、文本分词算法定义:文本分词是将字符串文本划分为有意义的单位的过程,如词语、句子或主题。中文分词也叫作切分,是将中文文本分割成若干个独立、有意义的基本单位的过程。二、分词算法基本的工作原理:是根据输入的字符串文本进行分词处理、过滤处理,输出分词后的结果,包括英文单词、中文单词及数字串等一系列切分好的字符串。三、中文分词算法可以分为以下3类:1、基于字符串匹配的分词方法它是将待处理的中文字符串与一个“尽可能全面”的词典中的词条按照一定的规则进行匹配,若某字符串存在于词典中,则认为该字符串匹配成功。2、基于统计的分词方法由于词是特定的字组合方式,那么在上下文中,相邻的单字共同出现的频率越高,则在该种字组合方式下就越有可能是构成了一个词。3、基于理解的分词方法该方法通过语义信息和语句信息来解决歧义分词问题,并且在分词的同时进行语义和句法分析。四、各种分词方法的优劣对比表
作者:云创智学 来源:云创智学
发布时间:2021-11-29 11:29:48