文本分割

将整段中文文本切分为有意义的词语的技术

文本分割(Text segmentation)将书面文本分割成有意义单位的过程,如单词、句子或主题。这个术语既适用于人类阅读文本时的心理过程,也适用于在电脑中实现的人工过程,后者属于自然语言处理的领域。一些书面语言有明确的单词分界标记,例如英语的词之间有空格标识,阿拉伯语有独特的首、中、末字母形状,但这种标记不是所有书面语言都有。

分割问题

分词

分词(Word segmentation)是将一串书面语言分成其组成词的问题。中文分词指的是使用电脑自动对中文文本进行词语的切分,即像英文那样使得中文句子中的词之间有空格以标识。中文分词被认为是中文自然语言处理中的一个最基本的环节。

Unicode联盟已经发表了一个关于文本分割的标准附件[1]

意图分割

意图分割(Intent segmentation)是将书面语言分割为关键词(2个或2个以上的词组)的问题。

参考文献

  1. ^ UAX #29. [2020-10-07]. (原始内容存档于2020-12-16). 

外部链接