引言
spaCy 是一个用于自然语言处理(NLP)的现代化库,专注于速度和生产环境的应用。它支持多种语言的文本处理,可以进行词性标注、命名实体识别、依存解析、文本分类等任务,常用于构建 NLP 管道和处理大规模文本数据。
spaCy 安装
pip install spacy
python -m spacy download en_core_web_sm # 英语小型模型
python -m spacy download zh_core_web_sm # 中文小型模型
spaCy 的核心功能
1. 加载语言模型
import spacy
nlp = spacy.load("en_core_web_sm") # 加载小型英语模型
doc = nlp("Apple is looking at buying U.K. startup for $1 billion.")
2. Tokenization(分词)
分词是将文本分割为单词或符号的过程。
for token in doc:
print(token.text, token.lemma_, token.pos_, token.dep_)