10、爬虫总复习

最新推荐文章于 2024-04-15 19:12:08 发布

我土豆去哪了

最新推荐文章于 2024-04-15 19:12:08 发布

阅读量363

点赞数

分类专栏： Python爬虫文章标签：爬虫 python

本文链接：https://blog.youkuaiyun.com/weixin_44233889/article/details/120303754

版权

Python爬虫专栏收录该内容

9 篇文章

订阅专栏

本文深入探讨了从BeautifulSoup抓取数据，高级请求技巧，到使用Scrapy框架，配合selenium和定时任务的爬虫实战。涵盖了csv与Excel数据存储，协程与队列调度，以及Scrapy框架的详细应用。同时介绍了邮件发送、数据库操作和数据分析等关键环节。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

1、解析与提取（Beautiful、json）
2、更厉害的请求（get、post、cookies）
3、存储（csv、openpyxl）
4、更多的爬虫（协程/gevent、queue）
5、更强大的爬虫（Scrapy框架）
6、给爬虫加上翅膀（selenium、邮件/smtplib+email、定时/schedule）
7、爬虫进阶路径指引

1、解析与提取（Beautiful、json）

当数据藏匿于网页源代码（BeautifulSoup）

手动修改编码类型：response.encoding='xxx'
当数据藏匿于 XHR 中（json）
总结

2、更厉害的请求（get、post、cookies）

requests.get() _ 参数params：让我们带着参数来请求数据，如我想要第几页？我想要搜索的关键词？我想要多少个数据？
requests.get() _ 参数headers：请求头。
get是明文显示参数，post是非明文显示参数。
requests.post() _ 参数data：用法和params非常相像。
cookies：作用是让服务器“记住你”。
示例代码

import requests
	
# 定义url_1，headers和data
url_1 = 'https://…'
headers = {'user-agent':''}
data = {}
	
login_in = requests.post(url,headers=headers,data=data)
cookies = login_in.cookies
# 完成登录，获取cookies
	
url_2 = 'https://…'
params = {}
# 定义url和params
	
response = requests.get(url,headers=headers,params=params,cookies=cookies)
# 带着cookies重新发起请求

3、存储（csv、openpyxl）

csv

#csv写入的代码：
import csv
csv_file=open('demo.csv','w',newline='')
writer = csv.writer(csv_file)
writer.writerow(['电影','豆瓣评分'])
csv_file.close()

在这里插入图片描述

#csv读取的代码：
import csv
csv_file=open('demo.csv','r',newline='')
reader=csv.reader(csv_file)
for row in reader:
	print(row)

Excel文件

#Excel写入的代码：
import openpyxl 
wb=openpyxl.Workbook() 
sheet=wb.active
sheet.title='new title'
sheet['A1'] = '漫威宇宙'
rows= [['美国队长','钢铁侠','蜘蛛侠','雷神'],['是','漫威','宇宙', '经典','人物']]
for i in rows:
    sheet.append(i)
print(rows)
wb.save('Marvel.xlsx')

在这里插入图片描述

#Excel读取的代码：
import openpyxl
wb = openpyxl.load_workbook('Marvel.xlsx')
sheet=wb['new title']
sheetname = wb.sheetnames
print(sheetname)
A1_value=sheet['A1'].value
print(A1_value)

4、更多的爬虫（协程/gevent、queue）

gevent
queue模块
示例代码

import gevent,time,requests
from gevent.queue import Queue
from gevent import monkey
monkey.patch_all()
	
start = time.time()
	
url_list = ['https://www.baidu.com/',
	'https://www.sina.com.cn/',
	'http://www.sohu.com/',
	'https://www.qq.com/',
	'https://www.163.com/',
	'http://www.iqiyi.com/',
	'https://www.tmall.com/',
	'http://www.ifeng.com/']
	
work = Queue()
for url in url_list:
	work.put_nowait(url)
	
def crawler():
	while not work.empty():
		url = work.get_nowait()
		r = requests.get(url)
		print(url,work.qsize(),r.status_code)
	
tasks_list  = [ ]
	
for x in range(2):
	task = gevent.spawn(crawler)
	tasks_list.append(task)
gevent.joinall(tasks_list)
	
end = time.time()
print(end-start)

5、更强大的爬虫（Scrapy框架）

Scrapy结构
Scrapy工作原理
Scrapy用法

6、给爬虫加上翅膀（selenium、邮件/smtplib+email、定时/schedule）

selenium
提取数据的方法：

对象的转换过程:

获取字符串格式的网页源代码：HTML源代码字符串 = driver.page_source
自动操作浏览器的方法：
邮件
流程：

示例代码：

import smtplib 
from email.mime.text import MIMEText
from email.header import Header
#引入smtplib、MIMEText和Header

mailhost='smtp.qq.com'
#把qq邮箱的服务器地址赋值到变量mailhost上，地址应为字符串格式
qqmail = smtplib.SMTP()
#实例化一个smtplib模块里的SMTP类的对象，这样就可以调用SMTP对象的方法和属性了
qqmail.connect(mailhost,25)
#连接服务器，第一个参数是服务器地址，第二个参数是SMTP端口号。
#以上，皆为连接服务器。

account = input('请输入你的邮箱：')
#获取邮箱账号，为字符串格式
password = input('请输入你的密码：')
#获取邮箱密码，为字符串格式
qqmail.login(account,password)
#登录邮箱，第一个参数为邮箱账号，第二个参数为邮箱密码
#以上，皆为登录邮箱。

receiver=input('请输入收件人的邮箱：')
#获取收件人的邮箱。

content=input('请输入邮件正文：')
#输入你的邮件正文，为字符串格式
message = MIMEText(content, 'plain', 'utf-8')
#实例化一个MIMEText邮件对象，该对象需要写进三个参数，分别是邮件正文，文本格式和编码
subject = input('请输入你的邮件主题：')
#输入你的邮件主题，为字符串格式
message['Subject'] = Header(subject, 'utf-8')
#在等号的右边是实例化了一个Header邮件头对象，该对象需要写入两个参数，分别是邮件主题和编码，然后赋值给等号左边的变量message['Subject']。
#以上，为填写主题和正文。

try:
    qqmail.sendmail(account, receiver, message.as_string())
    print ('邮件发送成功')
except:
    print ('邮件发送失败')
qqmail.quit()
#以上为发送邮件和退出邮箱。

定时
示例代码：

import schedule
import time
#引入schedule和time

def job():
    print("I'm working...")
#定义一个叫job的函数，函数的功能是打印'I'm working...'

schedule.every(10).minutes.do(job)       #部署每10分钟执行一次job()函数的任务
schedule.every().hour.do(job)            #部署每×小时执行一次job()函数的任务
schedule.every().day.at("10:30").do(job) #部署在每天的10:30执行job()函数的任务
schedule.every().monday.do(job)          #部署每个星期一执行job()函数的任务
schedule.every().wednesday.at("13:15").do(job)#部署每周三的13：15执行函数的任务

while True:
    schedule.run_pending()
    time.sleep(1)    
#15-17都是检查部署的情况，如果任务准备就绪，就开始执行任务。

7、爬虫进阶路径指引

解析与提取
解析库 xpath / lxml
正则表达式（ re 模块）
存储
MySQL库、MongoDB库
SQL语言
数据分析和可视化
模块与库 Pandas / Matplotlib / Numpy / Scikit-Learn / Scipy
更多的爬虫
多进程（ multiprocessing 库）
更强大的爬虫-框架
Scrapy模拟登录、存储数据库、使用HTTP代理、分布式爬虫
PySpider框架