MMSEG分词算法中包含了4种符合汉语语言中基本的成词习惯的歧义消解规则,如下图:
MMSEG分词算法中有两个重要的概念:Chunk和规则(Rule)。其中,一个Chunk就是一段字符串文本的一种分割方式,包括根据上下文分出的一组词及各个词对应的4个属性。规则的目的是过滤掉不符合特定要求的Chunk。为便于理解,我们可以将规则看做过滤器。
Chunk中各属性及其含义
用户访问量
注册用户数
在线视频观看人次
在线实验人次
MMSEG分词算法中包含了4种符合汉语语言中基本的成词习惯的歧义消解规则,如下图:
MMSEG分词算法中有两个重要的概念:Chunk和规则(Rule)。其中,一个Chunk就是一段字符串文本的一种分割方式,包括根据上下文分出的一组词及各个词对应的4个属性。规则的目的是过滤掉不符合特定要求的Chunk。为便于理解,我们可以将规则看做过滤器。
Chunk中各属性及其含义
¥ 5999
·难
·20
¥ 9999
·难
·1
¥ 7999
·难
·8
¥ 199
·易
·31
¥ 899
·适中
·15
¥ 1688
·适中
·198
¥ 28000
·难
·169
¥ 199
·偏易
·3589
¥ 100000
·难
·171
¥ 998
·难
·9
¥ 1899
·难
·15
¥ 199
·易
·342
¥ 5999
·适中
·30
¥ 6999
·难
·18
¥ 5999
·难
·15
¥ 3999
·难
·15
¥ 2999
·难
·57