spaCy NLP库的模型的下载、安装和使用说明书


1 前言

explosion网址https://explosion.ai/
spaCy下载网址https://explosion.ai/software
spaCy的GitHub网址https://github.com/explosion/spaCy
spaCy的网页网址https://spacy.io/

此存储库包含spaCy NLP库的模型发布版。有关如何下载、安装和使用模型的更多信息,请参阅模型文档

⚠️ Important note:
由于模型可能非常大且主要由二进制数据组成,我们不能简单地将其作为文件提供在GitHub存储库中。因此,我们选择将它们添加到发布版本中,以 .whl 和 .tar.gz 文件格式提供。这样我们仍然可以保持公开发布历史。

2 安装

快速入门

要安装特定模型,请运行以下命令并输入模型名称(例如,英文:en_core_web_sm ,中文:zh_core_web_sm):

python -m spacy download [model]

对于spaCy v1.x模型,请 查看此处

3 模型命名规范

总的来说,spaCy期望所有模型包遵循 [lang]_[name]的命名规范。对于我们提供的流水线,我们将名称分为三个部分:
core: dep: ent: sent: genre:

  • 类型: 模型功能:
    • core: 具有标记、解析、词形还原和命名实体识别的通用模型
    • dep: 仅具有标记、解析和词形还原
    • ent: 仅具有命名实体识别
    • sent: 仅具有句子分割
  • 体裁: 模型训练的文本类型(例如,web 表示网络文本,news 表示新闻文本)
  • 大小: 模型大小指示器:
    • sm: 没有单词向量
    • md: 减少的单词向量表,包含20,000个唯一的向量,用于约500,000个单词
    • lg: 大型单词向量表,包含约500,000个条目
      例如,en_core_web_md是一个中等大小的英语模型,经过书面网络文本(博客、新闻、评论)的训练,包括一个标记器、一个依赖解析器、一个词形还原器、一个命名实体识别器和一个包含20k个唯一向量的词向量表。

3.1 模型版本控制

此外,模型版本控制反映了与spaC

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值