from urllib import request
from urllib.request import urlretrieve
from bs4 import BeautifulSoup #网页解析,获取数据
import re #正则表达式,进行文字匹配
import urllib.request,urllib.error #制定URL,获取网页数据
import xlwt #进行excel操作
import sqlite3 #进行SQLite数据库操作
import json
import os
findLink1 = re.compile(r'<img src="(.*?)">')
findLink2 = re.compile(r'<a href="(.*?)" class="detail-download-button por-btn por-btn-primary por-btn-large">')
def askURL(url):
head = {
#模拟浏览器头部信息,向豆瓣服务器发送消息
'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Mobile Safari/537.36'
}
#用户代理,表示告诉豆瓣服务器,我们是什么类型的机器、浏览器(本质上是告诉浏览器,我们可以接收什么水平的文件内容)
request = urllib.request.Request(url,he
爬虫 华为云
最新推荐文章于 2025-04-03 16:49:51 发布