文章目录
1 前言
explosion网址:https://explosion.ai/
spaCy下载网址:https://explosion.ai/software
spaCy的GitHub网址:https://github.com/explosion/spaCy
spaCy的网页网址:https://spacy.io/
此存储库包含spaCy NLP库的模型发布版。有关如何下载、安装和使用模型的更多信息,请参阅模型文档。
⚠️ Important note:
由于模型可能非常大且主要由二进制数据组成,我们不能简单地将其作为文件提供在GitHub存储库中。因此,我们选择将它们添加到发布版本中,以 .whl 和 .tar.gz 文件格式提供。这样我们仍然可以保持公开发布历史。
2 安装
快速入门
要安装特定模型,请运行以下命令并输入模型名称(例如,英文:en_core_web_sm
,中文:zh_core_web_sm
):
python -m spacy download [model]
- spaCy v3.x models directory
- spaCy v3.x model comparison
- spaCy v2.x models directory
- spaCy v2.x model comparison
- Individual release notes
对于spaCy v1.x模型,请 查看此处。
3 模型命名规范
总的来说,spaCy期望所有模型包遵循 [lang]_[name]
的命名规范。对于我们提供的流水线,我们将名称分为三个部分:
core: dep: ent: sent: genre:
- 类型: 模型功能:
core
: 具有标记、解析、词形还原和命名实体识别的通用模型dep
: 仅具有标记、解析和词形还原ent
: 仅具有命名实体识别sent
: 仅具有句子分割
- 体裁: 模型训练的文本类型(例如,web 表示网络文本,news 表示新闻文本)
- 大小: 模型大小指示器:
sm
: 没有单词向量md
: 减少的单词向量表,包含20,000个唯一的向量,用于约500,000个单词lg
: 大型单词向量表,包含约500,000个条目
例如,en_core_web_md
是一个中等大小的英语模型,经过书面网络文本(博客、新闻、评论)的训练,包括一个标记器、一个依赖解析器、一个词形还原器、一个命名实体识别器和一个包含20k个唯一向量的词向量表。
3.1 模型版本控制
此外,模型版本控制反映了与spaC