python 爬虫

LEILEI18A

已于 2024-04-16 14:26:58 修改

阅读量3.4k

点赞数 2

CC 4.0 BY-SA版权

分类专栏： Python 爬虫文章标签： python 爬虫

于 2020-04-30 10:14:21 首次发布

本文链接：https://blog.youkuaiyun.com/LEILEI18A/article/details/105855467

Python 同时被 2 个专栏收录

18 篇文章

订阅专栏

爬虫

1 篇文章

订阅专栏

本文详细介绍Python爬虫的各种技术，包括使用XPath+Selenium、XPath+Scrapy进行数据抓取，借助icrawler简化操作，以及推荐使用DrissionPage库。涵盖API、模拟点击、断点续爬、代理设置等内容。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Python 爬虫教程(更新中)

5. icrawler 【借助更加便捷操作的pip包】

6. DrissionPage(推荐)

1. 简介

爬虫主要有几种方式：API(报文)-静态、模拟鼠标点击形式-动态、2者结合（DrissionPage）；

Xpath + Scrapy(API 静态爬取-直接post get) or Xpath + selenium(点击动态爬取-模拟)

Xpath风格可以获取所有的内容，所有的网站都是按照 tree 的形式，那么xpath可以逐层(有条理)分析，再结合各个框架进行分析爬取数据；xpath也可以用re beautifulsoup解析，但xpath更好，xpath教程(百度一下很多)；

selenium只是点击形式，因此对应很多header参数可不需要，对于不懂互联网底层原理的人也是比较容易上手的，需要下载对应版本的driver驱动，当然前提是你掌握一点html知识即可！而scrapy则需要很多参数进行设置，进行post get分析

xpath一般在浏览器中使用：F12，点击左上角小箭头，查看对应的html标签，然后在console中输入$x('')查看

【记住：如果用小按钮点击不到的，采用右击->检查！！！】

进一步，对于异步加载ajax，通过network点击你想要操作的，然后可以看到相应的信息(百度一下F12对应的信息介绍)

对于iframe等内嵌网页，爬虫也是2种方式获取内容：(1)selenium browser.switch_to.frame()；(2)BeautifulSoup+requests 先获取当前页的内容，然后获取想要的iframe的链接，再次get-post请求内容进行解析。

2. 注意

（1）断点续爬；（2）代理(淘宝)；（3）sleep一段时间继续；。。。

（4）分清楚哪些需要动态哪些需要静态的，仔细分析F12 Network和页面。

不要只看网页，还要看F12 Network中的请求接口，按照get post进行payload、header等参数的设置，然后发送对应请求。有的网页看起来直接requests.get(网站url)，但是返回结果为空or很少html，那么就需要看看是否需要api发送请求，而不是往网站发送请求。如果设置payload data还不行，可能是反爬，那么就需要DrissionPage selenium这样的库了。

Access-Control-Allow-Origin仅针对浏览器跨域，若用requests等爬虫则不受限制！

3. xpath+selenium

(1) 百度图片爬虫需要修改一下最新的百度图片的xpath路径

'''
注释：
    @author is leilei
    百度图片爬虫，采用selenium模拟鼠标点击形式
    1. 将要搜索的文本表示成list
    2. 打开百度图片官网，输入文本，搜索
    3. 逐条下载对应的图片
注：
    本代码支持断点续爬！
'''

import os
import uuid
import time
import random
import urllib
from selenium import webdriver
from selenium.webdriver.common.keys import Keys  # 键盘类

def send_param_to_baidu(name, browser):
    '''
    :param name:    str
    :param browser: webdriver.Chrome 实际应该是全局变量的
    :return:        将要输入的 关键字 输入百度图片
    '''
    # 采用id进行xpath选择，id一般唯一
    inputs = browser.find_element_by_xpath('//input[@id="kw"]')
    inputs.clear()
    inputs.send_keys(name)
    time.sleep(1)
    inputs.send_keys(Keys.ENTER)
    time.sleep(1)

    return

def download_baidu_images(save_path, img_num, browser):
    ''' 此函数应在
    :param save_path: 下载路径 str
    :param img_num:   下载图片数量 int
    :param browser:   webdriver.Chrome
    :return:
    '''
    if not os.path.exists(save_path):
        os.makedirs(save_path)

    img_link = browser.find_elements_by_xpath('//li/div[@class="imgbox"]/a/img[@class="main_img img-hover"]')
    img_link[2].click()
    # 切换窗口
    windows = browser.window_handles
    browser.switch_to.window(windows[-1])  # 切换到图像界面
    time.sleep(random.random())

    for i in range(img_num):
        img_link_ = browser.find_element_by_xpath('//div/img[@class="currentImg"]')
        src_link = img_link_.get_attribute('src')
        print(src_link)
        # 保存图片，使用urlib
        img_name = uuid.uuid4()
        urllib.request.urlretrieve(src_link, os.path.join(save_path, str(img_name) + '.jpg'))
        # 关闭图像界面，并切换到外观界面
        time.sleep(random.random())

        # 点击下一张图片
        browser.find_element_by_xpath('//span[@class="img-next"]').click()
        time.sleep(random.random())

    # 关闭当前窗口，并选择之前的窗口
    browser.close()
    browser.switch_to.window(windows[0])

    return

def main(names, save_root, img_num=[1000,], continue_num=0, is_open_chrome=False):
    '''
    :param names: list str
    :param save_root: str
    :param img_num: int list or int
    :param continue_num: int 断点续爬开始索引
    :param is_open_chrome: 爬虫是否打开浏览器爬取图像 bool default=False
    :return:
    '''
    options = webdriver.ChromeOptions()
    # 设置是否打开浏览器
    if not is_open_chrome:
        options.add_argument('--headless')  # 不打开浏览器
    else:
        prefs = {"profile.managed_default_content_settings.images": 2}  # 禁止图像加载
        options.add_experimental_option("prefs", prefs)
    # 欺骗反爬虫，浏览器可以打开，但是没有内容
    options.add_argument("--disable-blink-features=AutomationControlled")

    browser = webdriver.Chrome(chrome_options=options)
    browser.maximize_window()
    browser.get(r'https://image.baidu.com/')
    time.sleep(random.random())

    assert type(names) == list, "names参数必须是字符串列表"
    assert continue_num <= len(names), "中断续爬点需要小于爬虫任务数量"

    if type(img_num) == int:
        img_num = [img_num] * len(names)
        print(img_num)
    elif type(img_num) == list:
        print(img_num)
    else:
        print("None, img_num 必须是int list or int")
        return

    for i in range(continue_num, len(names)):
        name = names[i]
        save_path = os.path.join(save_root, str(names.index(name)))  # 以索引作为文件夹名称
        send_param_to_baidu(name, browser)
        download_baidu_images(save_path=save_path, img_num=img_num[i], browser=browser)
    # 全部关闭
    browser.quit()
    return



if __name__=="__main__":

    # main(names=['施工人员穿反光衣', '反光衣',],\
    #      save_root=r'F:\Reflective_vests',\
    #      img_num=500)

    main(names=['森林积雪', '道路积雪', '建筑积雪', '山上积雪', '草原下雪', '小区积雪', '雪人堆', '蓝天白云下的建筑道路积雪'],\
         save_root=r'F:\DataSets\snow\positive',\
         img_num=[300, 300, 300, 100, 100, 100, 50, 50],\
         continue_num=7)

######################################################################

4. xpath+scarpy（更新中）

scrapy有比较严格的格式要求，按照要求来做，即可。

英文最新版本；（尽量去看英文教程）

5. icrawler 【借助更加便捷操作的pip包】

'''
    底层肯定是scrapy静态报文，谷歌引擎不可以，百度最快，bing速度有点慢！
    直接pip install icrawler
    github 搜索即可
    
    若想搜索多个关键词，可以遍历for循环；同时icrawler也可对图像链接list、txt直接遍历：            
    UrlListCrawler
'''
from icrawler.builtin import GoogleImageCrawler
from icrawler.builtin import BaiduImageCrawler
from icrawler.builtin import BingImageCrawler
# storage字典格式'root_dir': 保存路径
crawler = BaiduImageCrawler(storage={'root_dir': r'F:\temp\cat'})
crawler.crawl(keyword='cat', max_num=10)