
NLP
文章平均质量分 55
535844609
一个程序猿
展开
-
tf.keras.preprocessing.text.Tokenizer笔记
tensorflow中的Tokenizer函数原创 2021-05-17 18:54:23 · 1665 阅读 · 0 评论 -
NLP中unicode文本处理
NLP中unicode文本处理Unicode字符标转化将unicode文件转化为ascii。import unicodedatadef unicode_to_ascii(s): return ''.join(c for c in unicodedata.normalize('NFD', s))在标点与单词之间加入空格def preprocess_sentence(s): import re # 需要处理的标点 punctuation = ',.?!' pre原创 2021-05-14 17:13:59 · 224 阅读 · 0 评论