stanza，一个超强的 Python 库！

2025年9月16日 1860点热度 0人点赞 0条评论

Stanza是由斯坦福大学开发的开源Python自然语言处理工具包，是Stanford CoreNLP的官方Python版本。这个库专门设计用于处理多种语言的文本分析任务，支持超过60种语言，包括中文、英文、德文、法文等。Stanza的核心优势在于其高精度的神经网络模型和统一的API接口，为研究人员和开发者提供了便捷的文本处理解决方案。

安装

1、基础安装

# 通过pip安装
pip install stanza

# 或通过conda安装
conda install -c stanfordnlp stanza

2、验证安装

安装完成后，可以通过以下代码验证是否安装成功：

import stanza
print(stanza.__version__)

# 下载英文模型进行测试
stanza.download('en')
nlp = stanza.Pipeline('en')
doc = nlp('Hello world!')
print('安装成功！')

核心特性

多语言支持：支持超过60种语言的文本处理
神经网络架构：基于深度学习的高精度模型
统一API：提供一致的编程接口，便于使用
模块化设计：可根据需求选择特定的处理组件
预训练模型：提供经过大规模语料训练的现成模型
可扩展性：支持自定义模型训练和微调

基本功能

1、分词处理

分词是自然语言处理的基础任务，Stanza提供了精准的分词功能，对于中文等没有明显分隔符的语言，准确分词尤为重要。

以下示例展示了如何对中文文本进行分词处理，这在文本分析、信息检索和机器翻译等场景中都是必需的预处理步骤。

import stanza

# 下载并初始化中文模型
stanza.download('zh')
nlp = stanza.Pipeline('zh', processors='tokenize')

# 分词示例
text = "自然语言处理是人工智能的重要分支"
doc = nlp(text)

for sentence in doc.sentences:
    for word in sentence.words:
        print(word.text)

2、词性标注

词性标注能够识别每个词汇的语法类别，如名词、动词、形容词等，这项功能在语法分析、信息抽取和文本理解中发挥重要作用。通过词性标注，可以更好地理解句子结构，为后续的语义分析奠定基础。

# 词性标注
nlp = stanza.Pipeline('en', processors='tokenize,pos')
text = "The quick brown fox jumps over the lazy dog"
doc = nlp(text)

for sentence in doc.sentences:
    for word in sentence.words:
        print(f'{word.text}\t{word.pos}')

3、命名实体识别

命名实体识别（NER）能够从文本中识别出人名、地名、组织名、时间等特定类型的实体。

以下示例展示了如何从英文文本中提取各类命名实体。

# 命名实体识别
nlp = stanza.Pipeline('en', processors='tokenize,ner')
text = "Barack Obama was born in Hawaii and served as President."
doc = nlp(text)

for ent in doc.ents:
    print(f'{ent.text}\t{ent.type}')

高级功能

1、依存句法分析

依存句法分析能够分析句子中词汇之间的语法依存关系，构建句子的语法树结构，对于深度语义理解、机器翻译和问答系统具有重要价值，可以帮助系统理解句子的语法结构和语义关系。

# 依存句法分析
nlp = stanza.Pipeline('en', processors='tokenize,pos,lemma,depparse')
text = "The student reads a book"
doc = nlp(text)

for sentence in doc.sentences:
    for word in sentence.words:
        print(f'{word.text}\t{word.head}\t{word.deprel}')

2、情感分析

Stanza还支持情感分析任务，能够判断文本的情感倾向，在社交媒体监控、产品评论分析和舆情分析中应用广泛。

# 情感分析（需要特定模型）
nlp = stanza.Pipeline('en', processors='tokenize,sentiment')
text = "I love this movie! It's amazing."
doc = nlp(text)

for sentence in doc.sentences:
    print(f'Sentiment: {sentence.sentiment}')

总结

Stanza作为斯坦福大学开发的专业级自然语言处理工具包，凭借其强大的多语言处理能力、高精度的神经网络模型和简洁易用的API接口，已成为NLP领域的重要工具。从基础的分词、词性标注到高级的依存句法分析，Stanza提供了完整的文本处理解决方案。其统一的编程接口降低了开发门槛，而丰富的预训练模型则保证了处理结果的准确性。

AI工具的成熟，让程序员也有了以前不敢想象的能力。海外市场的广阔，给了我们更大的舞台。

如果你也在考虑新的出路，如果你也想尝试AI编程出海这个方向，欢迎加入我们。

扫码或搜索 257735 添加微信，发送暗号「美金」，了解详细信息。