Python 爬虫处理图片懒加载

最新推荐文章于 2023-05-28 17:48:56 发布

原创

最新推荐文章于 2023-05-28 17:48:56 发布 · 2.6k 阅读

6 ·

CC 4.0 BY-SA版权

本文探讨了网页中图片懒加载的机制，图片链接通常存储在非src属性中，只在进入可视区域时替换。介绍了使用Python爬虫处理这种加载方式，提到了需要的库如lxml和beautifulsoup4，并提供了实现代码。

1、背景

在网页源码中，在img标签中首先会使用一个“伪属性”（通常使用src2，original......）去存放真正的图片链接而并非是直接存放在src属性中。当图片出现到页面的可视化区域中，会动态将伪属性替换成src属性，完成图片的加载，该图片加载后就可以查阅到相关的伪属性，访问的时候利用伪属性去访问

2、需要的python包

pip install lxml or pip install beautifulsoup4

3、实现代码

from lxml import html
from bs4 import BeautifulSoup
import requests
def readHtmlsoup(url):
    headers = {
        "user-agent": "Mozilla/5.0(X11; Linux x86_64) AppleWebKit/537.36(KHTML, like "
                      "Gecko) Chrome/73.0.3683.86 Safari/537.36",
        "accept": "text/html,application/xhtml+xml,application/xml;q = 0.9,image/webp,image/apng,*/*;q = 0.8",
        "accept-language": "en-US,en;q = 0.9",
        "accept-encoding": "gzip,deflate,br"
    }  # chorme
    '''
    headers={
                "user-agent":"Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:66.0) Gecko/20100101 Firefox/66.0",
                "accept":"image/webp,*/*",
                "accept-language": "en-US,en;q=0.5