爬虫基础

1、爬虫的概念

​ 概念:(spider,网络蜘蛛)通过互联网上一个个的网络节点,进行数据的提取、整合以及存储

分类:

通用爬虫(了解)

​ 主要用于搜索引擎(百度、Google ,搜狗等)

​ 搜索引擎的工作原理:

​ 核心部分:通过爬虫按照互联网的拓扑结构,进行批量的数据抓取,然后进行数据清洗与整合,然后按照一定的次序存入百度的数据库集群

​ 检索部分:实质上就是一个web系统,给用户提供一个检索平台

​ 搜索引擎获取数据的方式:

​ 1)通过通用爬虫

​ 2)主动的提交自己的网站

​ 3)通过竞价排名(信息排名:1、流量 2、竞价)

​ 4)搜索引擎和DNS的运营商合把一些有价值的网站收录过来

​ robots协议:
​ robots协议不是技术层面的协议,只是一个君子协定;首先在爬取一个网站的时候,第一步就是访问这个网站的robots.txt文件,在这个文件中规定了那些东西能爬哪些东西不能爬,爬虫要严格遵守,只爬取允许的内容,不要去爬取不允许的内容,搜索引擎爬虫一定遵守robots协议;我们写的话可以不遵守。

聚焦爬虫

​ 根据客户的需求,定制一些针对性比较强的爬虫

​ 工作原理:

​ 1、数据提取(抓取)

​ 技术:http协议等应用层协议

​ 反爬:用户代理、IP禁止、验证码、会话处理等

​ 2、数据的分析

​ 遇到的数据:html、json、xml、js数据

​ 反爬:js动态加载、js加密、后台加密等

​ 3、数据的存储

​ CSV数据、json数据、关系型数据库、非关系型数据库

​ 爬虫主要研究如何对付反爬

​ 学习内容:

​ 1、python

​ 2、相关的框架

​ urllib、requests、scripy等数据的抓取

​ 正则、xpath、bs4、selenium等

​ 3、分布式部署

2、HTTP协议

​ 1、什么是HTTP协议?

​ 1)是一个基于请求与响应的应用层协议,底层协议是TCP保证了整个传输过程的可靠性
2)通过url来进行客户端与服务器的交互(url解释:统一资源定位符,用于定位互联网上资源的位置,格式,协议://主机名.域名:端口号/路径名…?参数1=值1&参数2=值2&…#锚点)
3)是一种C/S(B/S是一种特殊的C/S结构)模式的协议,客户端发起请求,服务端处理请求并响应
4)它是一种无状态的协议,它通过cookie或者session来处理会话信息

​ 2、http的过程

​ 1)创建TCP链接:三次握手,客户端首先向服务器发出一个是否同意创建连接的请求,然后服务根据自己的任务量决定是否创建,并且把是否创建连接的相关信号返回给客户端,然后客户端如果接到了同意创建连接的信号,就正式的发起一个创建连接的信号,并且带上http协议的报文。通过三次握手客户端和服务器之间建立齐了一条数据通路,就可以保证HTTP协议的可靠传输

​ 2)客户端向服务器发起HTTP请求:通过url把参数以及请求头信息传递给服务器,常见的请求方式有4中,常用的是get和post

​ 请求头:包含了本次请求的相关配置信息(比如:主机、cookie、数据格式等),决定了客户端和服务之间数据交流的方式与格式

​ 请求体:就是参数,也即是客户端要想服务器提交的数据

​ get请求和post请求的区别:

​ get请求参数拼接在url后面的,post请求参数不体现在url中(一般直接通过表单提交);get请求数据量有限制(不同的浏览器对url的长度都有不同的限制),post请求是没有限制的

​ 3)服务器处理请求,并且把数据响应出去

​ 4)判断数据是否传输结束,如果结束,四次挥手断开TCP链接

3、工具

​ windows、Linux、fiddler

urlib模块

  • urllib是python提供的一个用于发起http请求以及处理请求相关业务和url的工具,后期爬虫的一些框架都是基于urllib
  • request是urllib中请求工具
方法
# 1、urlopen(),用打开一个远程链接,并且发起请求,然后返回响应对象
url = "http://www.baidu.com/"
res = request.urlopen(url=url)
print(res) # <http.client.HTTPResponse object at 0x000001C6422A8D30> 响应对象
# print(res.headers) # 输出响应头
# 读取响应体
print(res.read()) # 默认读取出来的是二进制
print(res.read().decode("utf-8")) 
# read函数是迭代读取,第二次读取是接着第一次的后面开始


# 2、urlretrieve(url,filename),对url发起请求,并且把响应体写入filename对应的文件中
r = request.urlretrieve(url=url,filename="./baidu.html")
print(r)	#('./baidu.html', <http.client.HTTPMessage object at 0x0000000002D4AC50>) 
request.urlretrieve(url="https://timgsa.baidu.com/timg?image&quality=80&size=b9999_10000&sec=1563170159325&di=9a44a383d70207bd3aa08a4a639e1bbd&imgtype=jpg&src=http%3A%2F%2Fimg4.imgtn.bdimg.com%2Fit%2Fu%3D1802778634%2C700132782%26fm%3D214%26gp%3D0.jpg",filename="./hello.jpg")


# 3、urlencode(),对url进行编码
url = "https://www.baidu.com/s?"
      # "ie=utf-8&wd=hello"

# 对于urllib不能直接接收非ascii码字符,我们需要将其转成ascii码格式
from urllib.parse import urlencode
# parse模块用于处理url格式
# 创建一个字典
dic = {"ie":"utf-8","wd":"老王"}
# 用urlencode方法来将字典处理成http参数的形式(参数1=值1&参数2=值2&.....)
params = urlencode(dic)
print(params)
res = request.urlopen(url=url+params)
print(res)
# request.urlopen(url="https://weibo.cn/pub/") # 直接访问是非法访问就会被拒绝
  • 解决https访问被拒绝

    • 反爬:用户代理
    • 用户代理:后台可以通过检测前端提交的请求头中的user-agent这个请求头,从他的值中得出当前正在访问的终端是什么,然后根据当前终端的版本信息决定应该影响什么样的内容。如果检测不到user-agent,或者检测到的user-agent和系统中任何一种user-agent都不匹配,那么就会拒绝访问。
  • 添加用户代理等请求头信息来伪装浏览器

# 创建Request对象
req = request.Request(url="https://weibo.cn/",headers={
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36',
    'cookie': '_T_WM=39ad9b2cdf11c160cd106f434ec5b03f; SUB=_2A25wL4UqDeRhGeBN7FIR9izJyTSIHXVT0ytirDV6PUJbkdAKLW_fkW1NRFYvP5x_aUas_YRuoCOKxITLjrTEO_vf; SUHB=0WGsVQsvKVLjCH; SCF=AjI0Hr3RTGBbFpCKBVczLVDI3kRMZS13v6nRl4A1AUtFqpi5S7rHssl8CQYL1GRV6zHalH_SSD7ziihqrBfFnC4.; SSOLoginState=1563161978'

})
# 用携带请求头的请求对象发起请求
res = request.urlopen(req)
print(res)
# print(res.read().decode("utf-8"))
with open("./weibo.html","wb") as fp:
    fp.write(res.read())

完整爬虫过程

  • 请求网页

  • 解析网页

  • 存储

from urllib import request
import re
from time import sleep
import csv

# 【下载模块】
# 定义一个函数,用于将url处理成请求对象
def request_from(url,page):
    # 拼接url
    page_url = url + str(page) + "/"
    # 请求头
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'}
    return request.Request(url=page_url,headers=headers)
# 封装一个函数,用于发起请求
def request_data(url,start,end):
    "这个函数用于将有start页到end页的url处理成响应字符串,然后放在容器中返回"
    # l = []
    # 对start到end进行遍历
    for page in range(start,end+1):
        # 创建请求对象
        req = request_from(url=url,page=page)
        # 发起请求
        res = request.urlopen(req)
        # 每请求一次要让程序中断1s,主要为了防止后台误认为当前程序是爬虫
        print("当期正在请求第%d页..."%page)
        sleep(1)
        # l.append(res.read().decode("utf-8"))
        yield res.read().decode("utf-8")
        # yield可以将一个函数变成一个生成器,生成器中内容就是每一次yield后面的内容
    # return l

# 【解析模块】
def analysis_data(data):
    "这个函数,传入待解析的那些html字符串,输出解析完的格式化的内容"
    for html in data:
        # 解析html字符串
        pat = re.compile(r'<div class="article block untagged mb15".*?single-clear',re.S)
        qiu_list = pat.findall(html)
        # 遍历所有的糗事
        for qiushi in qiu_list:
            # 提取每一个糗事中的内容
            # 创建一个字典用于整合每一个糗事的相关内容
            item = {}
            # 作者姓名
            pat_author = re.compile(r'<h2>(.*?)</h2>', re.S)
            item["author"] = pat_author.findall(qiushi)[0]
            # 内容
            pat_content = re.compile(r'<div class="content">.*<span>(.*?)</span>',re.S)
            item["content"] = pat_content.findall(qiushi)[0]
            # 糗图: 把图片本身存入本地的路径上,在item里面要体现出图片的url和存储路径
            # 找到图片的url路径
            pat_pic = re.compile(r'<div class="thumb">.*?<img src="(.*?)"',re.S)
            pic_url = "https:"+pat_pic.findall(qiushi)[0]
            # print(pic_url)
            # 从url中切分出图片的名字
            pic_name = pic_url.split("/")[-1]
            # 拼接出图片的存储路径
            pic_path = "./qiutu/" + pic_name
            # 下载图片
            request.urlretrieve(url=pic_url,filename=pic_path)
            print("正在下载图片:",pic_path)
            sleep(0.5)
            item["pic"] = {"filename":pic_path,"url":pic_url}
            yield item
# 【存储模块】
# json数据,csv二维表,redis数据库,mysql数据库
# 存二维表
def write_to_csv(data):
    # 打开csv文件
    csvfile = open("./qiubai.csv","a+",encoding="utf-8",newline='') # 以追加的方式打开csv文件
    # 此处容易发生bug,注意编码格式和换行方式

    # 根据打开的csv文件创建写对象
    writer = csv.writer(csvfile)
    # 写表头
    writer.writerow(["author","content","pic_url","pic_path"]) # 这个函数用于写一行
    # 将data中存储的内容写入到二维表中
    for item in data:
        # csv表中每一行就是编程语言中的一个一维列表,所以在这里我们需要将item这个字典转化成列表
        # 创建一个空列表
        row = []
        row.append(item["author"])
        row.append(item["content"])
        row.append(item["pic"]["url"])
        row.append(item["pic"]["filename"])
        # 将row列表写入到csv中
        writer.writerow(row)

if __name__ == '__main__':
    url = "https://www.qiushibaike.com/pic/page/"
    # 请求网页
    content_list = request_data(url=url,start=1,end=35)
    print(content_list)# <generator object request_data at 0x000001C18741D780>
    # 解析
    list = analysis_data(content_list)
    # 存储
    write_to_csv(list)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值