Python中文处理工具jieba:
jieba是一个用Python实现的分词库,对中文有很强大的分词能力。
jieba网站:https://github.com/fxsjy/jieba。
Windows环境下安装jieba的命令:pip install jieba。
jieba的优点如下:
(1)支持3种分词模式:
精确模式。试图将句子最精确地切开,适合文本分析。
全模式。把句子中所有可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义。
搜索引擎模式。在精确模式的基础上,对长词再次切分,提高召回率,适用于搜索引擎分词。
(2)支持自定义词典。