Python中文文本分句 sentence tokenize
由于nltk等都没有实现句子级别的tokenize,或者文本分句。这里使用python正则,快速实现一个,可以把文本分成若干个小句子。代码如下,如果你想要实现自己个性化的分句,例如只考虑“。!”等的分句,可以调整正则项,“|”代表或的意思。def sent_tokenize(x): sents_temp = re.split('(:|:|,|,|。|!|\!|\.|?|\?)',...
原创
2019-07-21 16:34:45 ·
3667 阅读 ·
0 评论