word2vector java使用_word2vector调用

最新推荐文章于 2024-12-04 17:37:50 发布

原创最新推荐文章于 2024-12-04 17:37:50 发布 · 502 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#word2vector java使用

本文档展示了如何使用Java进行word2vec模型的训练和调用。首先，通过jieba和gensim库读取并处理LCQMC数据集与额外文本数据作为语料，然后使用Word2Vec模型进行训练，并保存模型。接着，详细说明了如何加载已训练好的模型，以及如何将输入的句子转换为固定长度的词向量数组。

部署运行你感兴趣的模型镜像

1.word2vec模型训练

import jieba.analyse

import jieba

import os

from gensim.models.word2vec import Word2Vec

dirname = './data/LCQMC'

sentence = []

words = []

for filename in os.listdir(dirname):

with open(os.path.join(dirname, filename), 'r') as lcqmc:

for line in lcqmc:

linedict = eval(line) #将json字符串转化为json对象

word = linedict['sentence1']

pos = linedict['sentence2']

sentence.append(word)

sentence.append(pos)

with open('./data/data_text', 'r') as f:

for line in f:

sentence.append(line)

print("data_text size:", len(sentence))#sentence存放所有要训练的语料

for string in sentence:

temp = list(string)

str = ''

for ch in temp:

str = str+ch+' '

# print(str)

words.append(str)

#size指定训练的字表示向量大小

model = Word2Vec(words, size=128, window=4, min_count=1, sg=1, workers=2)

model.save('./data/word2vecModel') #将训练好的模型存放在该代码文件下data目录中word2vecModel文件中

2.word2vec模型的调用

model = Word2Vec.load('./gensim_word2vec/data/word2vecModel')

def wordToVector(words):

result = []

for senarr in words:

temp = []

for i in range(30): #将一句语句设置固定长度30字，下标低于30的字向量从模型中取，超过的获取128的列向量

if i < len(senarr):

word_vec = model[senarr[i]] #获取字向量

else:

word_vec = [0 for _ in range(128)]

word_vec = np.asarray(word_vec)

temp.append(word_vec)

# temp = np.asarray(temp)

result.append(temp)

return result

您可能感兴趣的与本文相关的镜像

Yolo-v8.3

Yolo-v8.3

Yolo

YOLO（You Only Look Once）是一种流行的物体检测和图像分割模型，由华盛顿大学的Joseph Redmon 和Ali Farhadi 开发。 YOLO 于2015 年推出，因其高速和高精度而广受欢迎

weixin_39890708

博客等级

码龄8年

关注

57点赞

327收藏

47粉丝

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。