爬虫基础urllib 之(二) --- urllib基础

本文详细介绍爬虫技术的应用,包括可爬取的数据类型如文本、图片、视频等,数据解析方法如JSON、正则表达式、BeautifulSoup等,以及数据保存方式。同时探讨了网页动态加载对抓取的影响及解决方案。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

能爬取什么样的数据

  网页文本:如HTML文档,Json格式化文本等
  图片:  获取到的是二进制文件,保存为图片格式
  视频:        同样是二进制文件
  其他:     只要请求到的,都可以获取

如何解析数据

  1. 直接处理
  2. Json解析
  3. 正则表达式处理
  4. BeautifulSoup解析处理
  5. PyQuery解析处理
  6. XPath解析处理

抓取的页面数据和浏览器里看到的不一样的问题

  因为很多网站中的数据都是通过js,ajax动态加载的,所以直接通过get请求获取的页面和浏览器显示的不同。

  如何解决js渲染问题:

    分析ajax
    Selenium/webdriver
    Splash
    PyV8,Ghost.py

保存数据

  文本: 纯文本,Json,Xml等

  关系型数据库:   Mysql,oracle,sql server等结构化数据库

  非关系型数据库:MongoDB,Redis等key-value形式存储

urllib

 官方文档:https://docs.python.org/zh-cn/3/library/urllib.html

urllib介绍

Urllib是python内置的HTTP请求库,是python提供的一个用于发起和处理http请求和响应的框架。

后期的一些框架,比如: requests、 scrapy等都是基于它

包括以下四个模块:

  urllib.error        异常处理模块
  urllib.request      请求模块
  urllib.parse       url解析模块
  urllib.robotparser     robots.txt解析模块

 

 

转载于:https://www.cnblogs.com/TMMM/p/10821797.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值