爬虫华为云

最新推荐文章于 2026-01-08 23:29:03 发布

原创

最新推荐文章于 2026-01-08 23:29:03 发布 · 1k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#python

本文详细介绍了如何利用Python编程语言，结合华为云的相关API，进行数据抓取和处理。通过实例展示了设置爬虫规则、调用华为云服务、处理反爬机制等关键步骤，帮助读者掌握在实际项目中实施爬虫技术的技巧。

from urllib import request
from urllib.request import urlretrieve
from bs4 import BeautifulSoup     #网页解析，获取数据
import re       #正则表达式，进行文字匹配
import urllib.request,urllib.error      #制定URL，获取网页数据
import xlwt     #进行excel操作
import sqlite3  #进行SQLite数据库操作
import json
import os

findLink1 = re.compile(r'<img src="(.*?)">')
findLink2 = re.compile(r'<a href="(.*?)" class="detail-download-button por-btn por-btn-primary por-btn-large">')



def askURL(url):
    head = {
   
                   #模拟浏览器头部信息，向豆瓣服务器发送消息
        'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Mobile Safari/537.36'
    }
                            #用户代理，表示告诉豆瓣服务器，我们是什么类型的机器、浏览器（本质上是告诉浏览器，我们可以接收什么水平的文件内容）

    request = urllib.request.Request(url,headers