tensorflow, keras, Tokenizer 获取文本信息, NLP

Tokenizer是keras.preprocessing.text中的类,用于文本预处理,将文本转化为数字序列或矢量化。它通过one-hot, integer-encoding等方式将词汇转换为计算机可处理的格式。Tokenizer提供了fit_on_sequences, fit_on_texts等方法进行序列或文本处理,并能转化为矩阵。此外,还有sequences_to_matrix, sequences_to_texts等方法进行转化。" 129846539,17586178,Java实现面包连锁店管理系统,"['Java', '课程设计', 'MySQL']

Tokenizer是keras.preprocessing.text包下的一个类,调用路径为:

tensorflow.keras.preprocessing.text.Tokenizer.

 

tensorflow和keras就以其数不清的包而著称,也为其诟病。Tokenizer是在数据预处理的时候常用的一个类,其作用是:

在处理文本时候向量化整个文本库

接触过机器学习文本处理的都应该了解,计算机是无法记得每个词汇长什么样子,它处理的方法是把每个词汇转换成数字格式,具体操作包括:one-hot, integer-encoding, word-embeddiing等。

Tokenizer处理一整个文本库的方式是将文本库转化为整数的序列,或转化为矢量化。具体描述一下: “我爱学习” 这个四个字,为每个字加上索引,[0,1,2,3],那么"我爱学习"就可以表示为"0123";“学习爱我”就是“2310”。

矢量化相对转化为索引序列复杂一点,它把每个汉字(英文的话可以是单词)转化为相对应的矢量,例如"我"转化为[0.2, 0.3, 0.4 ...]矢量的长度和具体内容是和每个字符和整个文档相关的,具体一点可以参考TF-IDF,或者word-embedding。

Tokenizer的定义如下(Tokenizer keras官方API):

tf.keras.preprocessing.text.Tokenizer(
    num_words=None, filters='!"#$%&()*+,-./:;<=>?@[\\]^_`{|}~\t\n', lower=True,
    split=' ', char_level=False, oov_token=None, documen
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值