Python爬虫基础

Tips

network==>request headers

xpath用法:

  • 使用场景:html标签页面中解析提取数据
  • xpath的节点关系
    • html里面的每个标签都叫节点:根节点、子节点、同级节点
  • 语法
    • /从根节点开始取(html 标签)
    • //跨节点取标签
    • ..选取当前节点的父节点;.选取当前节点
    • @选取标签的属性值
    • text()选取文本
  • \xpath语法获取img标签: /html/div/div/a/img
    1.直接网页copt xpath得到://*[@id="div-comment-10133"]/p/img # id独立用来定位
    2.//*跨标签 [@id="..."]精确定位
<html>		
    <div>
      <div>
        <a>
        <img>http:"aaaaa"<img>
        </a>
      <div>
    <div>
      <div>
      </div>
    <div>
</html>
  • xpath语法用到的模块lxml 帮助我们解析 html,xml
  • from lxml import etree
  • html = etree.HTML(response.content.decode("utf-8"))#【使用xpath进行解析数据(不可以解析字符串类型)】
  • 解析数据的方法:xpath(节点截取数据); bs4(需学html);pyquery;正则表达式;

爬虫基本步骤

1.导入相关的模块

import requests
from lxml import etree

2.发送网络请求获取数据
2.1确定爬取网站(url)

base_url = "https://www.mzitu.com/jiepai/"

2.2 防止反爬(构建请求头)

headers = {"User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36", }

2.3发送请求
response响应体 (想要的数据,响应头)=>拆分响应对象=>拿到数据(二进制->解码)

response = requests.get(url=base_url,headers=headers) # 请求==>response
html = response.content.decode("utf-8") # 字符串类型

3.分析网页架构(找到需要的数据)(解析数据)
3.1 转换成可以解析的类型

html = etree.HTML(response.content.decode("utf-8"))
url_list = html.xpath('//*[@id ="comments"]/ul/li') # 列表包含多个li,每个li包含图片:li标签下面的/div/…/p/img

3.2 需求获取li(p/img(src))

num = 0
for li in url_list:

  • num += 1
  • #print(li) # li是xpath能解析的类型
  • #二次解析(获取真正我们需要的图片)
  • #./当前下面的/div标签/…/@属性data-original
  • img_url = li.xpath("./div/p/img/@data-original")[0] # 列表=》元素:[0]
  • #png一般是反爬,jpg才对
    • #4.保存到本地
      • #发送请求下载图片
      • img_response = requests.get(url=img_url,headers=headers)
      • #保存本地(给下载的图片起名字)
      • with open("./results/{}.jpg".format(num),"wb") as f: #图片以二进制的方式写入更好
        • f.write(img_response.content) # img_response是对象,所以要获取内容
"sgmediation.zip" 是一个包含 UCLA(加利福尼亚大学洛杉矶分校)开发的 sgmediation 插件的压缩包。该插件专为统计分析软件 Stata 设计,用于进行中介效应分析。在社会科学、心理学、市场营销等领域,中介效应分析是一种关键的统计方法,它帮助研究人员探究变量之间的因果关系,尤其是中间变量如何影响因变量与自变量之间的关系。Stata 是一款广泛使用的统计分析软件,具备众多命令和用户编写的程序来拓展其功能,sgmediation 插件便是其中之一。它能让用户在 Stata 中轻松开展中介效应分析,无需编写复杂代码。 下载并解压 "sgmediation.zip" 后,需将解压得到的 "sgmediation" 文件移至 Stata 的 ado 目录结构中。ado(ado 目录并非“adolescent data organization”缩写,而是 Stata 的自定义命令存放目录)目录是 Stata 存放自定义命令的地方,应将文件放置于 "ado\base\s" 子目录下。这样,Stata 启动时会自动加载该目录下的所有 ado 文件,使 "sgmediation" 命令在 Stata 命令行中可用。 使用 sgmediation 插件的步骤如下:1. 安装插件:将解压后的 "sgmediation" 文件放入 Stata 的 ado 目录。如果 Stata 安装路径是 C:\Program Files\Stata\ado\base,则需将文件复制到 C:\Program Files\Stata\ado\base\s。2. 启动 Stata:打开 Stata,确保软件已更新至最新版本,以便识别新添加的 ado 文件。3. 加载插件:启动 Stata 后,在命令行输入 ado update sgmediation,以确保插件已加载并更新至最新版本。4
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值