python 读取HTML博客内容为文本或者makdown

本文介绍如何利用Python的html2text库将HTML文件转换为纯文本或Markdown格式,包括安装所需包及配置选项的方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1、安装所需要的包

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple html2text

2、模块说明
官方文档: https://pypi.org/project/html2text/

一、 基础用法:
获取text文本

import html2text as ht


text_maker = ht.HTML2Text()

path = r"C:/Users/dcg/Desktop/html/1.html"
html_file = open(path, 'r', encoding='utf8')
html_page = html_file.read()
html_file.close()

text = text_maker.handle(html_page)
print(text)

二、还可以加上一些选项
1, 先看有哪些选项
在这里插入图片描述

在这里插入图片描述
2、
保存为makdown格式的文本

# coding=gbk
import html2text as ht
import re


text_maker = ht.HTML2Text()

# 属性设置
text_maker.ignore_links = True
text_maker.bypass_tables = False

path = r"C:/Users/dcg/Desktop/html/1.html"
html_file = open(path, 'r', encoding='utf8')
html_page = html_file.read()
html_file.close()

text = text_maker.handle(html_page)
a = re.sub(r'\* \d+', '', text)
file = open("1.md", "w", encoding='utf8')
file.write(a)
file.close()

运行结果:
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值