自然语言处理原理汉语分词
自然语言处理原理汉语分词:中英文都存在分词的问题,英文每个单词之间以空格为分割符进行分割,所以处理起来相对方便。中文分词是将汉字序列切分成词序列。鉴于中文字之间没有分隔符,所以分词问题有较大的挑战。当前中文分词常用的方法有,基于字典的最长串匹配和基于统计机器学习算法。前者易于实现,可以解决85%的问题,但是歧义分词很难避免;而当前基于隐尔马科夫模型(HiddenMarkovModel,HMM)和条件随机场(ConditionalRandomField,CRF)等统计模型的解决方案已成为分词技术主流。分词算法主要包括基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法三种。当前基于统计方法进行分词,因为较高的性能,已经成为分词主流。基于统计的分词方法是在给定大量已标注的语料库的前提下,训练机器学习模型来实现对未知文本的切分。主要的统计模型有:N元文法模型(N-gram),隐马尔可夫模型(HiddenMarkovModel,HMM),最大熵模型(ME),条件随机场模型(ConditionalRandomFields,CRF)和循环神经网络(RecurrentNeuralNetwork,RNN)等
作者:云创智学 来源:云创智学
发布时间:2021-12-21 13:55:05