自然语言处理原理汉语分词:
中英文都存在分词的问题,英文每个单词之间以空格为分割符进行分割,所以处理起来相对方便。中文分词是将汉字序列切分成词序列。鉴于中文字之间没有分隔符,所以分词问题有较大的挑战。当前中文分词常用的方法有,基于字典的最长串匹配和基于统计机器学习算法。前者易于实现,可以解决85%的问题,但是歧义分词很难避免;而当前基于隐尔马科夫模型(Hidden Markov Model, HMM)和条件随机场(Conditional Random Field, CRF)等统计模型的解决方案已成为分词技术主流。
分词算法主要包括基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法三种。当前基于统计方法进行分词,因为较高的性能,已经成为分词主流。基于统计的分词方法是在给定大量已标注的语料库的前提下,训练机器学习模型来实现对未知文本的切分。主要的统计模型有:N元文法模型(N-gram),隐马尔可夫模型(Hidden Markov Model ,HMM),最大熵模型(ME),条件随机场模型(Conditional Random Fields,CRF)和循环神经网络(Recurrent Neural Network,RNN)等