【day4】python/爬虫基本原理讲解。

本文详细介绍了爬虫技术的工作原理及实现过程,包括请求网站、提取数据的方法,如GET与POST请求的区别,响应状态码的意义,以及如何使用JSON、正则表达式、BeautifulSoup等多种工具解析网页内容,并探讨了JavaScript渲染问题的解决方案。

虫: 请求网站数据的自动化程序


网页浏览流程:


Reques:包括
请求方式:主要有GET,POST两种请求类型。GET方式的请求信息在URL网址中,POST请求信息在FromData。
请求URL:统一资源定位服务。
请求头:包含请求时的头部信息。如User-Agent,Host,Cookies等信息。
请求体:请求额外携带的数据,如表单提交时的表单数据。

Response:包括
响应状态:404找不到页面,502服务器错误。
响应头:如内容类型,长度,服务器设置,设置Cookies等。
响应体:最主要内容,包括请求资源的内容,如HTML等。


解析方式:
1.直接处理
2.Json解析
3.正则表达式
4.BeautifulSoup
5.PyQuery
6.Xpath


JavaScript渲染问题:
1.分析Ajax请求
2.Selenium/WebDriver
3.Splash
4.PyV8,Ghost.py

数据存储:
1.直接存储
2.关系型数据库
3.非关系型数据库
4.二进制文件
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值