目录
一、背景
浏览器收藏了大量的书签,然后突然有一天发现,收藏太多了,也不知道哪些是已经添加过的,于是,想要整理一下,去重一下。
二、尝试
试过AI解析、文本编辑器查找。。。。都不尽人意,然后在同事的提醒下,想起了强大的Python,几行简单的代码就搞定了~~~哈哈哈
三、Py脚本
尝试过多种脚本,可以去重,但是不保留分组的也有,下面贴上保留原有分组的去重脚本。
# 确保安装BeautifulSoup库
# 你可以使用以下命令安装:
# pip install beautifulsoup4
from bs4 import BeautifulSoup
def parse_and_deduplicate_bookmarks(input_file):
"""解析HTML书签文件并保留分组结构,同时去重URL"""
with open(input_file, 'r', encoding='utf-8') as file:
soup = BeautifulSoup(file, 'html.parser')
# 用于存储书签结构的列表
bookmarks = []
current_path = []
seen_urls = set()
# 遍历所有的子元素
def traverse_and_collect(elements, path):
for element in elements:
if element.name == 'h3': # 书签文件夹
path.append(element.text)
bookmarks.append({'type': 'folder', 'name': element.text, 'path': path.copy(), 'chi