python 利用jieba库,解析路径下的简历文件(XML文件)
关键库
- os库:文件读取和输出
- re库:文本替换
- parse库:XML文件读取库
- csv库:csv文件处理库
- jieba库:NLP文本解析 分词库
思路
- 1 获取某一路径下所有简历数据(文件)
- 2 将所有简历文件进行依次遍历,解析XML数据内容
- 3 对复杂内容:履职经历,利用NLP 语言识别,进行分词。
- 4 对分词后结果按照需求情况进行处理和存储
- 5 将处理后的数据按照CSV文件进行输出和保存,便于后续分析
上代码
import os
import re
from xml.dom.minidom import parse
import csv
import jieba
filePath = r"E:\python-true\myprj\2021test"
allpath = []
filename = []
ids = []
data = []
allfilelist = os.listdir(filePath)
for file in allfilelist:
filepath = os.path.join(filePath, file)
if os.path.isfile(filepath):
if ((filepath.find(".lrmx") != -1) and (filepath.find("