请参阅:从PDF中提取目录 或者 java : pdfbox 读取 PDF文件内书签
请注意:书的目录.txt 编码:UTF-8,推荐用 Notepad++ 转换编码。
pip install lxml ;
lxml-5.1.0-cp310-cp310-win_amd64.whl (3.9 MB)
读目录.txt文件,使用 lxml 生成思维导图 Freemind(.mm)文件
编写 txt_etree_mm.py 如下
# -*- coding: utf-8 -*-
""" 读目录.txt文件,使用 lxml 生成思维导图 Freemind(.mm)文件"""
import os
import sys
import codecs
from lxml import etree
if len(sys.argv) ==2:
f1 = sys.argv[1]
else:
print('usage: txt_etree_mm.py file1.txt')
sys.exit(1)
if not os.path.exists(f1):
print(f"ERROR: {f1} not found.")
sys.exit(1)
fn,ext = os.path.splitext(f1)
if ext.lower() != '.txt':
print('ext is not .txt')
sys.exit(2)
# 创建根节点
map = etree.Element

本文介绍了如何使用Python脚本txt_etree_mm.py,结合lxml库,从.txt格式的PDF目录文件中解析内容,并生成Freemind(.mm)思维导图,展示了处理文本文件编码和层次结构的步骤。
最低0.47元/天 解锁文章
3088

被折叠的 条评论
为什么被折叠?



