VocabularyProcessor 使用注意事项

本文深入解析TensorFlow中VocabularyProcessor的使用方法,包括其在英文和中文文本处理上的应用及限制,强调了自定义分词器的重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

import codecs
from tensorflow.contrib import learn 
import numpy as np
raw1=[
"A person on a horse jumps over a broken down airplane.",
"A person is outdoors, on a horse."]
raw2=["The boy does a skateboarding trick."]
vocab_processor=learn.preprocessing.VocabularyProcessor(max_document_length=10)
#vocab_processor.fit(raw1)   # vocabprocessor是去区分大小写的 
print(np.array(list(vocab_processor.fit_transform(raw2))))  #前面fit一次了 就不要再fit_transform了,没有任何效果了  这一点很奇怪   
#transform_Text=np.array(list(vocab_processor.fit_transform(raw1)))
#transform_text2=np.array(list(vocab_processor.fit_transform(raw2)))
#print(transform_Text)
print(np.array(list(vocab_processor.transform(raw1))))# fit_transform和 fit(raw1)  再 transform(raw1)  的效果是一样的 

#也就是 创建词汇表,创建后不能更改
print(np.array(list(vocab_processor.transform(raw2))))#[0,0,0,4,0,0]
#print(np.array(list(vocab_processor.fit_transform(raw2))))# [13,14,15,4,16,17,0000]
#[[ 1  2  3  4  5  6  7  4  8  9]
 #[ 1  2 11 12  3  4  5  0  0  0]]   

默认的VocabularyProcessor 只适合英文 

raw2=[
    "2017清明节放假安排",
    "2018年清明节休市安排",
    "您好,2017年清明节股市休市安排如下有哪些",
    "清明股市放假吗"    
   "清明节"        ]
vocab_processor=learn.preprocessing.VocabularyProcessor(max_document_length=15)
print(np.array(list(vocab_processor.fit_transform(raw2))))
 #[[1 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
 #[2 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
 #[3 4 0 0 0 0 0 0 0 0 0 0 0 0 0]
 #[5 0 0 0 0 0 0 0 0 0 0 0 0 0 0]]
print(vocab_processor.vocabulary_._mapping)
# {'<UNK>': 0, '2017清明节放假安排': 1, '2018年清明节休市安排': 2, '您好': 3, '2017年清明节股市休市安排如下有哪些': 4, '清明股市放假吗清明节': 5}
所以如果 想要用在中文上面 必须自定义分词器 

https://zhuanlan.zhihu.com/p/43385871 vocabprocessor使用自定义的字典        

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值