网络爬虫-数据解析概述

本文介绍了一种名为聚焦爬虫的技术,它能够精准地抓取网页上的特定内容。该过程包括指定URL、发起请求、获取响应数据、数据解析及持久化存储等步骤。数据解析方法主要包括正则表达式、Beautiful Soup (bs4) 和 XPath 技术。

聚焦爬虫:爬取页面中指定的页面内容。
    - 编码流程:
        - 指定url
        - 发起请求
        - 获取响应数据
        - 数据解析
        - 持久化存储

数据解析分类:
    - 正则
    - bs4
    - xpath(***)

数据解析原理概述:
    - 解析的局部的文本内容都会在标签之间或者标签对应的属性中进行存储
    - 1.进行指定标签的定位
    - 2.标签或者标签对应的属性中存储的数据值进行提取(解析)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值