python | stanza，一个超强的 Python 库！

原创于 2025-09-14 16:24:08 发布 · 506 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#python #开发语言 #计算机视觉 #YOLO #音视频 #人工智能 #nlp

深度学习拓展阅读同时被 2 个专栏收录

989 篇文章

订阅专栏

python库

178 篇文章

订阅专栏

本文来源公众号“python”，仅用于学术分享，侵权删，干货满满。

原文链接：https://mp.weixin.qq.com/s/g9mMI8g8e-A2S2J-qGduRg

Stanza是由斯坦福大学开发的开源Python自然语言处理工具包，是Stanford CoreNLP的官方Python版本。这个库专门设计用于处理多种语言的文本分析任务，支持超过60种语言，包括中文、英文、德文、法文等。Stanza的核心优势在于其高精度的神经网络模型和统一的API接口，为研究人员和开发者提供了便捷的文本处理解决方案。

安装

1、基础安装

# 通过pip安装
pip install stanza

# 或通过conda安装
conda install -c stanfordnlp stanza

2、验证安装

安装完成后，可以通过以下代码验证是否安装成功：

import stanza
print(stanza.__version__)

# 下载英文模型进行测试
stanza.download('en')
nlp = stanza.Pipeline('en')
doc = nlp('Hello world!')
print('安装成功！')

核心特性

多语言支持：支持超过60种语言的文本处理
神经网络架构：基于深度学习的高精度模型
统一API：提供一致的编程接口，便于使用
模块化设计：可根据需求选择特定的处理组件
预训练模型：提供经过大规模语料训练的现成模型
可扩展性：支持自定义模型训练和微调

基本功能

1、分词处理

分词是自然语言处理的基础任务，Stanza提供了精准的分词功能，对于中文等没有明显分隔符的语言，准确分词尤为重要。

以下示例展示了如何对中文文本进行分词处理，这在文本分析、信息检索和机器翻译等场景中都是必需的预处理步骤。

import stanza

# 下载并初始化中文模型
stanza.download('zh')
nlp = stanza.Pipeline('zh', processors='tokenize')

# 分词示例
text = "自然语言处理是人工智能的重要分支"
doc = nlp(text)

for sentence in doc.sentences:
    for word in sentence.words:
        print(word.text)

2、词性标注

词性标注能够识别每个词汇的语法类别，如名词、动词、形容词等，这项功能在语法分析、信息抽取和文本理解中发挥重要作用。通过词性标注，可以更好地理解句子结构，为后续的语义分析奠定基础。

# 词性标注
nlp = stanza.Pipeline('en', processors='tokenize,pos')
text = "The quick brown fox jumps over the lazy dog"
doc = nlp(text)

for sentence in doc.sentences:
    for word in sentence.words:
        print(f'{word.text}\t{word.pos}')

3、命名实体识别

命名实体识别（NER）能够从文本中识别出人名、地名、组织名、时间等特定类型的实体。

以下示例展示了如何从英文文本中提取各类命名实体。

# 命名实体识别
nlp = stanza.Pipeline('en', processors='tokenize,ner')
text = "Barack Obama was born in Hawaii and served as President."
doc = nlp(text)

for ent in doc.ents:
    print(f'{ent.text}\t{ent.type}')

高级功能

1、依存句法分析

依存句法分析能够分析句子中词汇之间的语法依存关系，构建句子的语法树结构，对于深度语义理解、机器翻译和问答系统具有重要价值，可以帮助系统理解句子的语法结构和语义关系。

# 依存句法分析
nlp = stanza.Pipeline('en', processors='tokenize,pos,lemma,depparse')
text = "The student reads a book"
doc = nlp(text)

for sentence in doc.sentences:
    for word in sentence.words:
        print(f'{word.text}\t{word.head}\t{word.deprel}')

2、情感分析

Stanza还支持情感分析任务，能够判断文本的情感倾向，在社交媒体监控、产品评论分析和舆情分析中应用广泛。

# 情感分析（需要特定模型）
nlp = stanza.Pipeline('en', processors='tokenize,sentiment')
text = "I love this movie! It's amazing."
doc = nlp(text)

for sentence in doc.sentences:
    print(f'Sentiment: {sentence.sentiment}')

总结

Stanza作为斯坦福大学开发的专业级自然语言处理工具包，凭借其强大的多语言处理能力、高精度的神经网络模型和简洁易用的API接口，已成为NLP领域的重要工具。从基础的分词、词性标注到高级的依存句法分析，Stanza提供了完整的文本处理解决方案。其统一的编程接口降低了开发门槛，而丰富的预训练模型则保证了处理结果的准确性。

THE END !

文章结束，感谢阅读。您的点赞，收藏，评论是我继续更新的动力。大家有推荐的公众号可以评论区留言，共同学习，一起进步。