ExcelCy 使用教程

齐添朝

于 2024-09-01 08:29:08 发布

阅读量745

点赞数 22

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/gitblog_00246/article/details/141771341

ExcelCy 使用教程

excelcyExcel Integration with spaCy. Training NER using Excel/XLSX from PDF, DOCX, PPT, PNG or JPG.项目地址:https://gitcode.com/gh_mirrors/ex/excelcy

项目介绍

ExcelCy 是一个用于将 Excel 文件与 SpaCy 自然语言处理（NLP）训练过程集成的工具包。它提供了通过 Excel 文件格式进行简单注释的功能，并包含用于预训练实体注释的短语和正则表达式匹配器管道。ExcelCy 专注于将训练数据导入 SpaCy 数据模型的需求，使得数据训练过程更加高效和便捷。

项目快速启动

安装

首先，确保你已经安装了 Python 和 pip。然后，使用以下命令安装 ExcelCy：

pip install excelcy==0.4.1

快速开始

以下是一个简单的示例，展示如何使用 ExcelCy 进行实体训练：

import excelcy
from spacy.pipeline import EntityRuler

# 初始化 SpaCy 模型
nlp = spacy.load("en_core_web_sm")

# 添加 ExcelCy 到管道
excelcy_pipeline = excelcy.ExcelCy(nlp)
nlp.add_pipe(excelcy_pipeline, last=True)

# 加载 Excel 文件
excelcy_pipeline.excel.path = "path/to/your/file.xlsx"
excelcy_pipeline.excel.sheet = "Sheet1"

# 训练模型
nlp.to_disk("trained_model")