浏览器书签整理小妙招 Python学习

目录

一、背景

二、尝试

三、Py脚本

四、操作步骤

步骤一:安装Python

步骤二:安装Python依赖

步骤三:新建脚本文件

步骤四:执行脚本


一、背景

浏览器收藏了大量的书签,然后突然有一天发现,收藏太多了,也不知道哪些是已经添加过的,于是,想要整理一下,去重一下。

二、尝试

试过AI解析、文本编辑器查找。。。。都不尽人意,然后在同事的提醒下,想起了强大的Python,几行简单的代码就搞定了~~~哈哈哈

三、Py脚本

尝试过多种脚本,可以去重,但是不保留分组的也有,下面贴上保留原有分组的去重脚本。

# 确保安装BeautifulSoup库
# 你可以使用以下命令安装:
# pip install beautifulsoup4

from bs4 import BeautifulSoup

def parse_and_deduplicate_bookmarks(input_file):
    """解析HTML书签文件并保留分组结构,同时去重URL"""
    with open(input_file, 'r', encoding='utf-8') as file:
        soup = BeautifulSoup(file, 'html.parser')

    # 用于存储书签结构的列表
    bookmarks = []
    current_path = []
    seen_urls = set()

    # 遍历所有的子元素
    def traverse_and_collect(elements, path):
        for element in elements:
            if element.name == 'h3':  # 书签文件夹
                path.append(element.text)
                bookmarks.append({'type': 'folder', 'name': element.text, 'path': path.copy(), 'chi
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值