2021.11.21 以为不再用python分析语料库的我又开始了作死的全过程——用spacy给德语txt文档lemmatize并将结果写入csv及txt（二）

原创

于 2021-11-21 12:38:21 发布 · 1.3k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#python #nlp #自然语言处理

本文介绍了如何利用Anaconda环境，通过conda安装spacy的德语模型，并使用该模型对德语文本进行lemmatize处理。同时提到了csv和re包在处理过程中的作用，完整代码来源于程序员男友的帮助。

1 所需软件及packages

1.1 软件/程序

Anaconda （官网）
（里头的）spider
（里头的）prompt或win+R 👉 cmd

1.2 packages

spaCy：有各种语言nlp的分析包，官网查看安装方式；我选的conda安装 - German - efficiency，官网提供的代码为（在梯子加持下安装很顺利）：

conda install -c conda-forge spacy
python -m spacy download de_core_news_sm

csv（python自带）
re（py自带）

spacy用于分析德语文本（词汇量更大一版）的包，安装了快一个小时也没成功，不推荐了：

de_dep_news_trf

2 完整代码

import spacy
import csv
import re

#载入spacy的德语包
nlp = spacy.load('de_core_news_sm') 

#读取txt文件，文件需提前处理为utf8格式，否则有乱码
file = open(r'填文件路径', mode='r', encoding='utf-8', errors='ignore')
fileContent