用gensim导入word2vec词向量bin文件，出现字符编码

最新推荐文章于 2024-12-28 16:12:19 发布

原创最新推荐文章于 2024-12-28 16:12:19 发布 · 7.1k 阅读

1 ·

CC 4.0 BY-SA版权

word2vec 专栏收录该内容

7 篇文章

订阅专栏

本文记录了在使用gensim加载非UTF-8编码的词向量模型时遇到的UnicodeDecodeError问题，并通过对比正确模型找到解决方案。

首先抛出我遇到的问题。

我训练了一个词向量文件，得到了一个二进制文件，model.bin，然后准备调用gensim来测试bin文件里面的词向量效果怎么样，于是就导入这个模型。

import gensim

# 导入模型
model = gensim.models.KeyedVectors.load_word2vec_format('t8model.bin',binary=True)

print (model['word'])

然后出现以下编码问题

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xba in position 0: invalid start byte

查了一下，这是Stack Overflow上的答案

The strings (words) stored in your model are not valid utf8. By default, gensim decodes the words using the strict encoding settings, which results in the above exception whenever an invalid utf8 sequence is encountered.

然后知道我测试的词在模型中不是utf-8形式的，于是我找了一个以前测试正确的模型，来重新测试，然后就没有出现编码问题。

这就确定了我的问题的原因是由于模型中的词不是utf-8形式的。

现在就去找导致这种结果的原因......

10 条评论

宇宙无敌第一帅 2023.02.23
请问有解决的朋友吗，训练中文文本，出来就是乱码，导致后面也无法计算相似度
- CosineMai回复宇宙无敌第一帅 2023.08.29
  您解决了吗

weixin_48243330 2022.05.10
请问解决了吗，我也遇到完全一样的问题，就是词向量文件编码格式不对

weixin_43820297 2021.04.16
请问您如何训练的词向量呢，做毕设就卡这儿了[face]monkey2:019.png[/face]
- 宇宙无敌第一帅回复weixin_43820297 2023.02.23
  救救孩子[face]emoji:029.png[/face]俺也是
- DMU_lzq1996回复weixin_43820297 2021.06.16
  请问解决了吗