Python爬取网页并存储为pdf

本文讲述了如何使用Python的pdfkit工具从网页抓取内容并保存为PDF格式,解决了图片加载问题,并讨论了避免给服务器带来过多负担的重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

起因是最近准备学习TensorFlow,找了个网页教程,质量感觉挺好,但是页面广告巨多,不小心就能中雷,就想用爬虫爬下来,净化一下,一开始是拒绝的,因为爬虫下来的话,格式跟网页就不一定一样了,说不定会乱七八糟,直到后来发现了pdfkit这个工具,(需要安装wkhtmltopdf)。然后就一发不可收拾了:
遇到的障碍就是图片一开始无法加载,索性一不做二不休在存储源码的时候直接改位置,让其按照我的心意存储。
代码如下,应该很容易能看懂

import requests
import os
import time
import random
import re
import pdfkit
from bs4 import BeautifulSoup
from lxml.html import etree


def get_text(url):
    # 获取url的内容,调用频率极高
    headers = {
   
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'}
    response = requests.get(url, headers=headers)
    response.encoding = 'utf-8'
    return response.text


def clean_str(string):
    # 创建文件时候去掉特殊字符,防止创建失败
    return re.sub(r'\n|\s', '', string)


def analysis_text(url):
    # 核心方法,获取需要的html信息,以方便重新组合形成新的html文件,注意是带上标签的
    headers = {
   
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'}
    text = get_text(url)
    soup = BeautifulSoup(text, 'html.parser'
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值