spaCy NLP库的模型的下载、安装和使用说明书

QYLZ

已于 2024-03-20 18:48:33 修改

阅读量2.8k

点赞数 23

CC 4.0 BY-SA版权

分类专栏：自然语言处理文章标签：自然语言处理人工智能 python nlp 深度学习机器学习语言模型

于 2024-03-20 16:57:23 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_56242678/article/details/136878568

文章目录

1 前言
2 安装
3 模型命名规范
- 3.1 模型版本控制
- 3.2 支持对旧版本的兼容
4 下载模型
5 加载和使用模型
6 手动下载和安装
7 spaCy v1.x模型的命名规范
8 问题和错误报告

1 前言

explosion网址：https://explosion.ai/
spaCy下载网址：https://explosion.ai/software
spaCy的GitHub网址：https://github.com/explosion/spaCy
spaCy的网页网址：https://spacy.io/

此存储库包含spaCy NLP库的模型发布版。有关如何下载、安装和使用模型的更多信息，请参阅模型文档。

⚠️ Important note:
由于模型可能非常大且主要由二进制数据组成，我们不能简单地将其作为文件提供在GitHub存储库中。因此，我们选择将它们添加到发布版本中，以 .whl 和 .tar.gz 文件格式提供。这样我们仍然可以保持公开发布历史。

2 安装

快速入门

要安装特定模型，请运行以下命令并输入模型名称（例如，英文：en_core_web_sm ，中文：zh_core_web_sm）：

python -m spacy download [model]

对于spaCy v1.x模型，请查看此处。

3 模型命名规范

总的来说，spaCy期望所有模型包遵循 [lang]_[name]的命名规范。对于我们提供的流水线，我们将名称分为三个部分：
core： dep： ent： sent： genre：

类型: 模型功能：
- core: 具有标记、解析、词形还原和命名实体识别的通用模型
- dep: 仅具有标记、解析和词形还原
- ent: 仅具有命名实体识别
- sent: 仅具有句子分割
体裁: 模型训练的文本类型（例如，web 表示网络文本，news 表示新闻文本）
大小: 模型大小指示器:
- sm: 没有单词向量
- md: 减少的单词向量表，包含20,000个唯一的向量，用于约500,000个单词
- lg: 大型单词向量表，包含约500,000个条目
  例如，en_core_web_md是一个中等大小的英语模型，经过书面网络文本（博客、新闻、评论）的训练，包括一个标记器、一个依赖解析器、一个词形还原器、一个命名实体识别器和一个包含20k个唯一向量的词向量表。

3.1 模型版本控制

此外，模型版本控制反映了与spaC

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。