1 所需软件及packages
1.1 软件/程序
- Anaconda (官网)
- (里头的)spider
- (里头的)prompt或win+R 👉 cmd
1.2 packages
- spaCy:有各种语言nlp的分析包,官网查看安装方式;我选的conda安装 - German - efficiency,官网提供的代码为 (在梯子加持下安装很顺利):
conda install -c conda-forge spacy
python -m spacy download de_core_news_sm
- csv(python自带)
- re(py自带)
spacy用于分析德语文本(词汇量更大一版)的包,安装了快一个小时也没成功,不推荐了:
de_dep_news_trf
2 完整代码
import spacy
import csv
import re
#载入spacy的德语包
nlp = spacy.load('de_core_news_sm')
#读取txt文件,文件需提前处理为utf8格式,否则有乱码
file = open(r'填文件路径', mode='r', encoding='utf-8', errors='ignore')
fileContent

本文介绍了如何利用Anaconda环境,通过conda安装spacy的德语模型,并使用该模型对德语文本进行lemmatize处理。同时提到了csv和re包在处理过程中的作用,完整代码来源于程序员男友的帮助。
最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



