词法分析概述:
将输入的句子字串转换成词序列并标记出各词的词性。这里所说的“字”并不仅限于汉字,也可以指标点符号、外文字母、注音符号和阿拉伯数字等任何可能出现在文本中的文字符号,所有这些字符都是构成词的基本单元。不同的语言对词法分析有不同的要求,例如英语和汉语就有较大的差距。
例如:“我们研究所有东西”,可以是“我们——研究所——有——东西”也可是“我们——研究——所有——东西” 。
英语等语言的单词之间是用空格自然分开的,很容易切分一个单词,因而很方便找出句子的每个词汇。例如:“We study everything”,分词结果为“We——study——everything”。