Python网络爬虫
文章平均质量分 93
IT小庄同学
IT行业共同进步
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Python网络爬虫逆向分析爬取动态网页、使用Selenium库爬取动态网页、编辑将数据存储入MongoDB数据库
本章介绍了两种方法爬取动态网页,分别是逆向分析爬取和通过Selenium爬取,同时也介绍了如何将爬取到的数据,储存到MongoDB中,具体内容如下。通过源码比对,实现了静态网页与动态网页的区分。使用逆向分析技术爬取网站“http://www.ptpress.com.cn”首页新书信息。使用Selenium爬取网站“http://www.ptpress.com.cn/search/books”中的以“python编程”为关键词的信息。将爬取到的数据,储存至MongoDB数据库。原创 2023-06-24 18:30:42 · 3558 阅读 · 0 评论 -
Python网络爬虫实现HTTP请求、解析网页和数据存储(简单静态网页爬取)
Beautiful Soup是一个可以从HTML或XML文件中提取数据的Python库。目前Beautiful Soup 3已经停止开发,大部分的爬虫选择使用Beautiful Soup 4开发。Beautiful Soup不仅支持Python标准库中的HTML解析器,还支持一些第三方的解析器。BeautifulSoup对象表示的是一个文档的全部内容。大部分时候,可以把它当作Tag对象。 BeautifulSoup对象并不是真正的HTML或XML的tag,所以并没有tag的name和attribute属性原创 2023-06-16 11:03:12 · 3619 阅读 · 0 评论 -
python网络爬虫网页前端编程基础、Socket库、使用Socket进行TCP编程、认识HTTP协议、熟悉Cookie等。
章节介绍了Python中的底层Socket库,及运用socket库建立TCP和UDP连接。并对超文本传输协议(HTTP)及其相关机制进行了简要介绍。对本章做小结如下。 Socket库提供多种协议类型和函数,可用于建立TCP和UDP连接。 HTTP协议基于TCP协议进行客户端与服务器间的通讯,由客户端发起请求,服务器进行应答。 HTTP状态码由3位数字构成,按首位数字可分为5类状态码。 HTTP头部信息为HTTP协议的请求与响应消息中的消息头部分,其定义了该次传输事务中的操作参数。原创 2023-06-06 17:30:18 · 1325 阅读 · 0 评论
分享