tensorflow实现word2vec报错&解决集

最新推荐文章于 2022-07-06 15:59:26 发布

原创

最新推荐文章于 2022-07-06 15:59:26 发布 · 1k 阅读

2 ·

CC 4.0 BY-SA版权

先是从书上学习，然后利用随书代码实现word2vec，代码在此：https://github.com/PacktPublishing/Natural-Language-Processing-with-TensorFlow/blob/master/ch3/ch3_word2vec.ipynb

因为想做领域词的识别，故没有用已有的英文数据试验，用的自己找的专业领域的小段语料做实验，先用jieba分词，然后开始Word2vec，这篇就写写报的错以及解决，有时间再详解代码。

1、在Generating Batches of Data for Skip-Gram阶段，报错：

print(' batch:', [reverse_dictionary[bi] for bi in batch])
KeyError: 326960996

原因是：batch一开始是通过np.ndarray随机初始化的任意数值数组，当2倍window_size的大小没有被batch_size整除时，batch里剩下的值（如上面报错的326960996）作为reverse_dictionary的索引必然报错。举个例子如下，一切了然：

# data=[44,45,46,47,48,49,0,0,0,5,0,0,0,15,16.......]
# 示例：batchsize=16, windowsize=1,buffer队列长度=3,numsamples=2的时候
# batch=[45,45,46,46,47,47,48,48,49,49,0,0,0,0,0,

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

小茶子

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
4
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

【自然语言处理】情感分析（三）：基于 Word2Vec 的 LSTM 实现

Code · Cloud · Think · Repeat

01-27

3298

当我们训练深度学习神经网络的时候通常希望能获得最好的泛化性能（generalization performance，即可以很好地拟合数据）。但是所有的标准深度学习神经网络结构如全连接多层感知机都很容易过拟合：当网络在训练集上表现越来越好，错误率越来越低的时候，实际上在某一刻，它在测试集的表现已经开始变差。

python-word2vec模块使用详解

热门推荐

qq_28840013的博客

04-29

4万+

这里，我们不讲word2vec的原理（其实是还了解不透彻，以后明白了再写，大家在阅读本文之前，可以先简单了解一下其推理过程），就只了解其参数和输入输出。 1.Word2vec作用：表达不同词之间的相似和类比关系 2.安装方法：pip install --upgrade gensim #因为Gensim开发了一套工具箱叫做gensim，里面继承了Word2vec方法。 3.输入参数格式： i...

4 条评论您还未登录，请先登录后发表或查看评论

运用TensorFlow处理简单的NLP问题

github_35804313的博客

08-06

1667

当前“人工智能”是继“大数据”后又一个即将被毁的词，每家公司都宣称要发力人工智能，就跟4-5年前大数据一样，业界叫的都非常响亮，不禁想到之前一个老外说过的话： Big Data is like teenage sex: Everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims. 现在看来，上面的”Big Data”可以换成

AttributeError: ‘Word2Vec‘ object has no attribute ‘similarity‘

DL_Iris的博客

07-28

1万+

错误代码： y1 = model.similarity(u"新冠", u"疫情") print(y1) 报错： AttributeError: 'Word2Vec' object has no attribute 'similarity' 正确代码： y1 = model.wv.similarity(u"新冠", u"疫情") print(y1) 修改方法：对照Gensim用户手册,找正确的参数引用形式。用户手册中使用most_similar的方法如下，所以也参照这个用法使用similarity了

一些小问题

相国大人

07-10

1584

1,如何在 PyCharm 中设置 Python 代码模板 2,PyCharm 中文注释报错 SyntaxError: Non-ASCII character 3,Ubuntu 安装Navicat，界面出现乱码解决方法 4,Ubuntu navicat导入csv文件失败：多半是字段分隔符按照默认的设定成了“定位”，改成逗号（或者换其他几个选项试试）

解决gensim训练word2vec模型时，出现的MemoryError问题

zcyzhangzhou的博客

02-27

4271

最近在看52nlp大神的“我爱自然语言处理”，学习用gensim对中文维基百科训练Word2Vec模型，并进行词语相似度测试实验。（52nlp 原文链接）但是在学习过程中，出现了两次MemoryError问题。第一次出现MemoryError错误是在完成语料处理后，进行Word2Vec模型训练时。百度了下，原因是因为内存不足造成的。因为我下载的中文维基百科的语料库有1.6G，在gensim训...

训练word2vec模型时碰到的两个问题：AttributeError和 UnicodeDecodeError，即属性错误和编码问题

qq_43160348的博客

04-22

4179

一、属性错误 1.报错：UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0xd7 in position 1 2.报错解析： 3.解决办法：二、编码问题 1.报错：UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0xd7 in position 1 2.报错解析： 3.解决办法： ......

【Word2Vec】运行报错以及处理结果

weixin_45330288的博客

05-02

2069

Word2vec运行时出现的错误记载

利用word2vec、textCNN、jieba对事故文本多分类及致因修复（三维向量）

Seere的博客

07-22

1757

中文分词 + 数据集三维向量化+ TextCNN 一、背景经过几天的测试及模拟建模训练，尝试了机器学习中的一些常用模型，例如Lasso、LR、SVM、XGBoost、GBTD等，发现效果并不如人意，最好最好的结果也是刚刚超过60%的准确率。思考了一下原因，发现主要还是因为在传统机器学习模型中，输入的是一条一条的行向量，正如之前文章中用到的方式，将一个文本先分词，得到一个词组，在把词组中...

AttributeError: 'Tensor' object has no attribute 'argsort'

weixin_36049506的博客

12-08

2449

image_pred = image_pred[(-score).argsort()] yolov3程序调试时出错:pytorch的tensor没有argsort方法不希望转成numpy再转回tensor，查阅手册发现 pytorch的sort同时返回了sorted和indices，代码修改为： srtd, indices = torch.sort(-score) image_pred = ...

记写word2vec问题汇总

dy20174530的博客

09-19

567

1.编码问题代码： def read_data(filename):#解压下载的压缩文件 #with zipfile.ZipFile(filename) as f: data=[] f=open(filename,"r") for line in f: line=line.strip("\n") data.append(ji...

中文词向量word2vec计算相似度

xiyou__的博客

07-06

1560

基于word2vec词向量计算中文词语之间的相似度。

AttributeError: ‘Word2Vec‘ object has no attribute

weixin_42869502的博客

10-22

3072

model.wv.doesnt_match('man woman child kitchen'.split()) model后加wv

word2vec代码_从word2vec理论到实现的断层到更广泛的视角看word2vec

weixin_39796116的博客

11-24

133

常见的word2vec的cbow模式的网络结构如上图，需要注意的是：1、其具体的实现的物理结构是：就是一个v*n的embedding层和一个n*v的embedding层，看多了总会有一种多输入nn结构的错觉；2、如果使用keras实现的话，cbow直观上的实现应该是这样的：【不可思议的Word2Vec】6. Keras版的Word2Vecspaces.ac.cn#CBOW输入 input_wor...

python变量初始化的位置不当、程序结果可能会出现问题_解决tensorflow由于未初始化变量而导致的错误问题...

weixin_39704374的博客

12-08

649

我写的这个程序import tensorflow as tfsess=tf.InteractiveSession()x=tf.Variable([1.0,2.0])a=tf.constant([3.0,3.0])x.initializer.run()sun=tf.div(x,a)print(sub.eval())sess.close()出现了如下所示的错误：原因是倒数第二行的sub没有初始化，倒数...

Faster-rcnn代码python2转换python3的KeyError: b‘TEST‘问题

ydestspring的博客

09-23

495

一直用的一个faster-rcnn代码是python2的，决定把它改为python3。很多报错都是print函数，xrange函数，较好解决。解决到最后被一个报错，卡了一天，在网上也无法找到解决方案，记录一下：报错如下： Caused by op 'PyFunc', defined at: File "/home/q/yd/Faster-RCNN-21/tools/demo.py", line 118, in <module> net = get_network(arg...

Python由于gensim版本原因Word2vec调用时3个报错问题解决办法

sweet_tea_的博客

05-16

4303

报错1：TypeError: init() got an unexpected keyword argument ‘size‘ 根据官方手册，将 size改为vector_size 报错2：TypeError: init() got an unexpected keyword argument ‘iter‘ 根据官方手册，将 iter改为epochs 报错3：TypeError: ‘Word2Vec’ object is not subscriptable 根据官方手册，原始调用词向量直接使用命令model

recv_device="/job:localhost/replica:0/task:0/device:CPU:0"

zhuimengshaonian66的博客

08-15

1万+

出现此类问题，我是采用过两种解决办法第一种，我这里之前设置的只占百分之五十后来增加到八十，但作用大不大我也不清楚，主要靠第二种方法第二种比较常用读入batch_size减小点，比如之前设置的是64，后来改为32或者16 ...

上面的代码运行之后报错：AttributeError: module 'tensorflow' has no attribute 'placeholder'

05-27

start_word_vec[0, 0, word_num_map[start_word]] = 1 poem = start_word state = sess.run(cell.zero_state(1, tf.float32)) for i in range(100): probs_val, state_val = sess.run([probs, final_state], ...