python 爬虫

本文详细介绍Python爬虫的各种技术,包括使用XPath+Selenium、XPath+Scrapy进行数据抓取,借助icrawler简化操作,以及推荐使用DrissionPage库。涵盖API、模拟点击、断点续爬、代理设置等内容。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

                                                                          Python 爬虫教程(更新中)

目录

1. 简介

2. 注意

3. xpath+selenium

4. xpath+scarpy(更新中)

5. icrawler 【借助更加便捷操作的pip包】

6. DrissionPage(推荐)


1. 简介

爬虫主要有几种方式:API(报文)-静态、模拟鼠标点击形式-动态、2者结合(DrissionPage);

Xpath + Scrapy(API 静态 爬取-直接post get)  or  Xpath + selenium(点击 动态 爬取-模拟) 

Xpath风格可以获取所有的内容,所有的网站都是按照 tree 的形式,那么xpath可以逐层(有条理)分析,再结合各个框架进行分析爬取数据;xpath也可以用re beautifulsoup解析,但xpath更好,xpath教程(百度一下很多);

selenium只是点击形式,因此对应很多header参数可不需要,对于不懂互联网底层原理的人也是比较容易上手的,需要下载对应版本的driver驱动,当然前提是你掌握一点html知识即可!而scrapy则需要很多参数进行设置,进行post get分析

xpath一般在浏览器中使用:F12,点击左上角小箭头,查看对应的html标签,然后在console中输入$x('')查看

【记住:如果用小按钮点击不到的,采用右击->检查!!!

进一步,对于异步加载ajax,通过network点击你想要操作的,然后可以看到相应的信息(百度一下F12对应的信息介绍)

对于iframe等内嵌网页,爬虫也是2种方式获取内容:(1)selenium browser.switch_to.frame();(2)BeautifulSoup+requests 先获取当前页的内容,然后获取想要的iframe的链接,再次get-post请求内容进行解析。

2. 注意

(1)断点续爬;(2)代理(淘宝);(3)sleep一段时间继续;。。。

(4)分清楚哪些需要动态 哪些需要静态的,仔细分析F12 Network和页面。

        不要只看网页,还要看F12 Network中的请求接口,按照get post进行payload、header等参数的设置,然后发送对应请求。有的网页看起来直接requests.get(网站url),但是返回结果为空or很少html,那么就需要看看是否需要api发送请求,而不是往网站发送请求。如果设置payload data还不行,可能是反爬,那么就需要DrissionPage selenium这样的库了。

        Access-Control-Allow-Origin仅针对浏览器跨域,若用requests等爬虫则不受限制!

3. xpath+selenium

(1) 百度图片爬虫 需要修改一下最新的百度图片的xpath路径 

'''
注释:
    @author is leilei
    百度图片爬虫,采用selenium模拟鼠标点击形式
    1. 将要搜索的文本表示成list
    2. 打开百度图片官网,输入文本,搜索
    3. 逐条下载对应的图片
注:
    本代码支持断点续爬!
'''

import os
import uuid
import time
import random
import urllib
from selenium import webdriver
from selenium.webdriver.common.keys import Keys  # 键盘类

def send_param_to_baidu(name, browser):
    '''
    :param name:    str
    :param browser: webdriver.Chrome 实际应该是全局变量的
    :return:        将要输入的 关键字 输入百度图片
    '''
    # 采用id进行xpath选择,id一般唯一
    inputs = browser.find_element_by_xpath('//input[@id="kw"]')
    inputs.clear()
    inputs.send_keys(name)
    time.sleep(1)
    inputs.send_keys(Keys.ENTER)
    time.sleep(1)

    return

def download_baidu_images(save_path, img_num, browser):
    ''' 此函数应在
    :param save_path: 下载路径 str
    :param img_num:   下载图片数量 int
    :param browser:   webdriver.Chrome
    :return:
    '''
    if not os.path.exists(save_path):
        os.makedirs(save_path)

    img_link = browser.find_elements_by_xpath('//li/div[@class="imgbox"]/a/img[@class="main_img img-hover"]')
    img_link[2].click()
    # 切换窗口
    windows = browser.window_handles
    browser.switch_to.window(windows[-1])  # 切换到图像界面
    time.sleep(random.random())

    for i in range(img_num):
        img_link_ = browser.find_element_by_xpath('//div/img[@class="currentImg"]')
        src_link = img_link_.get_attribute('src')
        print(src_link)
        # 保存图片,使用urlib
        img_name = uuid.uuid4()
        urllib.request.urlretrieve(src_link, os.path.join(save_path, str(img_name) + '.jpg'))
        # 关闭图像界面,并切换到外观界面
        time.sleep(random.random())

        # 点击下一张图片
        browser.find_element_by_xpath('//span[@class="img-next"]').click()
        time.sleep(random.random())

    # 关闭当前窗口,并选择之前的窗口
    browser.close()
    browser.switch_to.window(windows[0])

    return

def main(names, save_root, img_num=[1000,], continue_num=0, is_open_chrome=False):
    '''
    :param names: list str
    :param save_root: str
    :param img_num: int list or int
    :param continue_num: int 断点续爬开始索引
    :param is_open_chrome: 爬虫是否打开浏览器爬取图像 bool default=False
    :return:
    '''
    options = webdriver.ChromeOptions()
    # 设置是否打开浏览器
    if not is_open_chrome:
        options.add_argument('--headless')  # 不打开浏览器
    else:
        prefs = {"profile.managed_default_content_settings.images": 2}  # 禁止图像加载
        options.add_experimental_option("prefs", prefs)
    # 欺骗反爬虫,浏览器可以打开,但是没有内容
    options.add_argument("--disable-blink-features=AutomationControlled")

    browser = webdriver.Chrome(chrome_options=options)
    browser.maximize_window()
    browser.get(r'https://image.baidu.com/')
    time.sleep(random.random())

    assert type(names) == list, "names参数必须是字符串列表"
    assert continue_num <= len(names), "中断续爬点需要小于爬虫任务数量"

    if type(img_num) == int:
        img_num = [img_num] * len(names)
        print(img_num)
    elif type(img_num) == list:
        print(img_num)
    else:
        print("None, img_num 必须是int list or int")
        return

    for i in range(continue_num, len(names)):
        name = names[i]
        save_path = os.path.join(save_root, str(names.index(name)))  # 以索引作为文件夹名称
        send_param_to_baidu(name, browser)
        download_baidu_images(save_path=save_path, img_num=img_num[i], browser=browser)
    # 全部关闭
    browser.quit()
    return



if __name__=="__main__":

    # main(names=['施工人员穿反光衣', '反光衣',],\
    #      save_root=r'F:\Reflective_vests',\
    #      img_num=500)

    main(names=['森林积雪', '道路积雪', '建筑积雪', '山上积雪', '草原下雪', '小区积雪', '雪人堆', '蓝天白云下的建筑道路积雪'],\
         save_root=r'F:\DataSets\snow\positive',\
         img_num=[300, 300, 300, 100, 100, 100, 50, 50],\
         continue_num=7)

######################################################################

4. xpath+scarpy(更新中)

scrapy有比较严格的格式要求,按照要求来做,即可。

英文最新版本;(尽量去看英文教程)

5. icrawler 【借助更加便捷操作的pip包】

'''
    底层肯定是scrapy静态报文,谷歌引擎不可以,百度最快,bing速度有点慢!
    直接pip install icrawler
    github 搜索即可
    
    若想搜索多个关键词,可以遍历for循环;同时icrawler也可对图像链接list、txt直接遍历:            
    UrlListCrawler
'''
from icrawler.builtin import GoogleImageCrawler
from icrawler.builtin import BaiduImageCrawler
from icrawler.builtin import BingImageCrawler
# storage字典格式'root_dir': 保存路径
crawler = BaiduImageCrawler(storage={'root_dir': r'F:\temp\cat'})
crawler.crawl(keyword='cat', max_num=10)

6. DrissionPage(推荐)

        2.x版本是selenium+requests的结合,但是selenium依赖deriver版本;3.x 4.x完全独立开发(静态是对requests的封装)!

        推荐DrissionPage进行爬虫,虽然是个人开源的项目,有一些不能及时完善的地方,不如selenium成熟,但是还可以。缺点是针对Chromium内核的浏览器。如果还想要支持所有浏览器的推荐playwright。

        代码:去官方查看样例demo。

### Python爬虫的学习资源与使用方法 Python爬虫是一种高效的工具,用于自动化的网络信息采集。由于其丰富的库支持以及简洁易懂的语法特性,Python 成为了编写网络爬虫的最佳选择之一[^3]。 #### 学习Python爬虫的基础知识 学习Python爬虫不仅涉及理论知识的理解,还需要通过实际操作来加深印象。在移动设备上也可以轻松完成这些任务,因为手机端的Python环境配置较为简便,可以随时随地进行实践练习[^1]。 #### 推荐的Python爬虫教程列表 以下是几份高质量的Python爬虫教程推荐: - **基础篇** - 《一只小爬虫》[^2] - 《Python与简单网络爬虫的编写》[^2] - **进阶篇** - 《[Python]网络爬虫(五):urllib2的使用细节与抓站技巧》[^2] - 《[Python]网络爬虫(十):一个爬虫的诞生全过程(以山东大学绩点运算为例)》[^2] - **高级功能** - 《Python爬虫——抓取网页并解析HTML》[^2] - 《Python正则表达式指南》[^2] 除了上述具体的文章外,《Python爬虫新手指南及简单实战》也是一份非常适合初学者的内容,其中包含了详细的案例分析和代码演示[^3]。 #### 实践中的关键技术点 当开始构建自己的第一个爬虫项目时,需要注意以下几个方面: 1. 数据请求模块的选择,比如`requests`或内置的`urllib`。 2. HTML页面解析技术的应用,例如BeautifulSoup或者lxml库。 3. 对于复杂的数据提取需求,则可能需要用到正则表达式的辅助[^2]。 下面展示一段简单的爬虫脚本作为参考: ```python import requests from bs4 import BeautifulSoup url = 'https://example.com' response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') titles = soup.find_all('h1') for title in titles: print(title.text.strip()) ``` 此段程序展示了如何访问目标网址,并从中提取所有的标题标签内容[^3]。 #### 工具扩展建议 如果计划进一步深入研究大数据量场景下的爬虫应用,那么像Pandas这样的数据分析框架将会非常有用。它可以方便地管理和转换所收集到的信息至结构化形式以便后统计分析工作[^4]。 --- 相关问题
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值