将bert中的字向量提取出来并保存成npy文件

最新推荐文章于 2025-03-10 11:56:25 发布

昕晴

最新推荐文章于 2025-03-10 11:56:25 发布

阅读量3.3k

点赞数 1

分类专栏：自然语言处理

本文链接：https://blog.youkuaiyun.com/qq_40210472/article/details/100890120

版权

本文介绍如何从bert_model.ckpt中提取并保存BERT的768维中文词向量到npy文件，提供了一种TensorFlow操作模型的方法，方便后续直接使用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

因为我们是要使用bert的词向量，希望可以简单如word2vec 一般，拿来就用，所以将 bert_model.ckpt中的保存的word_embedding提取出来，并进行保存。

也是一个tensorflow 保存提取模型的方法

首先下载 bert中文预训练模型 chinese_L-12_H-768_A-12 这是一个768维的中文词向量预训练模型

在这个文件夹下使用下列代码


import tensorflow as tf
from tensorflow.python import pywrap_tensorflow
import numpy as np





ckpt_path = 'bert_model.ckpt'

reader = pywrap_tensorflow.NewCheckpointReader(ckpt_path)
param_dict = reader.get_variable_to_shape_map()  # 读取 ckpt中的参数的维度的
#emd = param_dict['bert/embeddings/word_embeddings']
emd = reader.get_tensor('bert/embeddings/word_embeddings') # 得到ckpt中指定的tensor 
print(len(emd))
print(emd[:5])
param=np.array(emd)
np.save('bert_embed.txt',param)
'''
from tensorflow.python.tools import inspect_checkpoint as chkp

chkp.