京东图片爬取（requests+lxml 最简单的方式)

最新推荐文章于 2025-03-09 22:11:50 发布

原创

最新推荐文章于 2025-03-09 22:11:50 发布 · 2.4k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫入门代码 #京东图片 #反爬

这篇博客介绍了如何利用Python的requests库和lxml库进行网页请求与HTML解析，特别针对京东图片的爬取进行详细说明，适合爬虫初学者快速上手。

最容易让新手看懂上手的语言python，最强大的爬虫模块requests+最便捷的节点提取方式xpath

from retrying import retry
from lxml import etree
import requests
import re
import os


class Spider(object):
    def __init__(self):
        self.headers = {
            '''模拟浏览器，防反爬，同理可以加上refer与cookie'''
            "User_Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"
        }

    '''尝试五次'''
    @retry(stop_max_attempt_number=5)
    def _parse_url(self, url):
        try:
            response = requests.get(url, headers=self.headers).content.decode()

        except:
            return ""
        </