python 简历解析初探（NLP）

最新推荐文章于 2025-11-07 14:55:46 发布

原创

最新推荐文章于 2025-11-07 14:55:46 发布 · 3k 阅读

21 ·

CC 4.0 BY-SA版权

文章标签：

#python #xml #自然语言处理 #列表

本文介绍如何利用Python的jieba库解析指定路径下的XML简历文件，并通过NLP技术提取关键信息，如履历时间及工作内容等，最后将处理结果存储为CSV文件以供进一步分析。

python 利用jieba库，解析路径下的简历文件（XML文件）

关键库

os库：文件读取和输出
re库：文本替换
parse库：XML文件读取库
csv库：csv文件处理库
jieba库：NLP文本解析分词库

思路

1 获取某一路径下所有简历数据（文件）
2 将所有简历文件进行依次遍历，解析XML数据内容
3 对复杂内容：履职经历，利用NLP 语言识别，进行分词。
4 对分词后结果按照需求情况进行处理和存储
5 将处理后的数据按照CSV文件进行输出和保存，便于后续分析

上代码

import os
import re
from xml.dom.minidom import parse
import csv
import jieba

filePath = r"E:\python-true\myprj\2021test"  # 简历文件所在文件夹

allpath = []
filename = []
ids = []
data = []  # 最终输出数据结构

allfilelist = os.listdir(filePath)
# 遍历该文件夹下的所有目录或者文件
for file in allfilelist:
    filepath = os.path.join(filePath, file)
    # 如果是文件，筛选doc
    if os.path.isfile(filepath):
        if ((filepath.find(".lrmx") != -1) and (filepath.find("