embedding模型 Instructor-embedding安装/推理报错解决方案

背景

在按照https://github.com/xlang-ai/instructor-embedding中的指引安装embedding模型instructor时,遇到了多种报错。比如:

INSTRUCTOR._load_sbert_model() got an unexpected keyword argument 'local_files_only'

 或

instructor embedding cannot import name 'cached_download' from 'huggingface_hub' 

以及

No such file or directory: 'hkunlp/instructor-large/modules.json'

原因是现在的transformers、huggingface库更新速度太快,基本上月更,所以需要修补各种版本上的问题。

解决方案

直接用sentence-transformer框架进行推理,读取权重文件。

pip install sentence-transformers -q
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("hkunlp/instructor-large", trust_remote_code=True)
sentence = "3D ActionSLAM: wearable person tracking in multi-floor environments"
instruction = "Represent the Science title:"
embeddings = model.encode([[instruction,sentence]])
print(embeddings)

注:默认embeddings未经过normalize

中文词向量(Chinese Word Vectors)是自然语言处理(NLP)中非常重要的一种技术,用于将中文词语表示为向量形式,以便于计算机进行处理和分析。GitHub上的这个项目(https://github.com/Embedding/Chinese-Word-Vectors)提供了一个大规模的中文词向量数据集,并附有详细的使用说明文档(README_zh.md)。 以下是如何使用该项目的基本步骤: 1. **克隆仓库**: 首先,你需要将这个GitHub仓库克隆到本地。使用以下命令: ```bash git clone https://github.com/Embedding/Chinese-Word-Vectors.git ``` 2. **阅读文档**: 克隆仓库后,进入目录并打开`README_zh.md`文件。这个文件包含了项目的详细介绍、安装步骤、使用方法以及示例代码。 3. **安装依赖**: 根据文档中的说明,安装所需的依赖包。通常情况下,你需要安装`gensim`库。可以使用以下命令安装: ```bash pip install gensim ``` 4. **下载词向量**: 在`README_zh.md`中,作者提供了多个预训练的词向量文件链接。你可以根据需要下载相应的文件。例如,下载一个中文维基百科的词向量文件: ```bash wget http://<文件下载链接> ``` 5. **加载词向量**: 使用`gensim`库加载下载的词向量文件。以下是一个示例代码: ```python from gensim.models import KeyedVectors # 加载词向量 model = KeyedVectors.load_word2vec_format('path/to/your/word_vectors.bin', binary=True) # 使用词向量 vector = model['中国'] similar_words = model.most_similar('中国') print(vector) print(similar_words) ``` 6. **使用词向量**: 你可以使用这些词向量进行各种NLP任务,如文本分类、情感分析、机器翻译等。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值