Python爬虫基础

数据新生活

已于 2022-08-14 09:54:12 修改

阅读量658

点赞数

分类专栏：爬虫 python 文章标签：爬虫 python

于 2019-10-20 09:49:05 首次发布

本文链接：https://blog.youkuaiyun.com/weixin_42814602/article/details/102644111

版权

python 同时被 2 个专栏收录

9 篇文章

订阅专栏

爬虫

1 篇文章

订阅专栏

文章目录

Tips

network==>request headers

xpath用法：

使用场景：html标签页面中解析提取数据
xpath的节点关系
- html里面的每个标签都叫节点：根节点、子节点、同级节点
语法
- /从根节点开始取(html 标签)
- //跨节点取标签
- ..选取当前节点的父节点；.选取当前节点
- @选取标签的属性值
- text()选取文本
\xpath语法获取img标签: /html/div/div/a/img
1.直接网页copt xpath得到：//*[@id="div-comment-10133"]/p/img # id独立用来定位
2.//*跨标签 [@id="..."]精确定位

<html>		
    <div>
      <div>
        <a>
        <img>http:"aaaaa"<img>
        </a>
      <div>
    <div>
      <div>
      </div>
    <div>
</html>

xpath语法用到的模块lxml 帮助我们解析 html，xml
from lxml import etree
html = etree.HTML(response.content.decode("utf-8"))#【使用xpath进行解析数据(不可以解析字符串类型)】
解析数据的方法：xpath(节点截取数据); bs4(需学html）；pyquery；正则表达式；

爬虫基本步骤

1.导入相关的模块

import requests
from lxml import etree

2.发送网络请求获取数据

2.1确定爬取网站(url)

base_url = "https://www.mzitu.com/jiepai/"

2.2 防止反爬(构建请求头)

headers = {"User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36", }

2.3发送请求

response响应体 (想要的数据,响应头)=>拆分响应对象=>拿到数据(二进制->解码)

response = requests.get(url=base_url,headers=headers) # 请求==>response
html = response.content.decode("utf-8") # 字符串类型

3.分析网页架构(找到需要的数据)(解析数据)

3.1 转换成可以解析的类型

html = etree.HTML(response.content.decode("utf-8"))
url_list = html.xpath('//*[@id ="comments"]/ul/li') # 列表包含多个li,每个li包含图片：li标签下面的/div/…/p/img

3.2 需求获取li(p/img(src))

num = 0
for li in url_list:

num += 1
#print(li) # li是xpath能解析的类型
#二次解析(获取真正我们需要的图片)
#./当前下面的/div标签/…/@属性data-original
img_url = li.xpath("./div/p/img/@data-original")[0] # 列表=》元素:[0]
#png一般是反爬，jpg才对
- #4.保存到本地
  - #发送请求下载图片
  - img_response = requests.get(url=img_url,headers=headers)
  - #保存本地(给下载的图片起名字)
  - with open("./results/{}.jpg".format(num),"wb") as f: #图片以二进制的方式写入更好
    - f.write(img_response.content) # img_response是对象，所以要获取内容