爬虫基础urllib 之(二) --- urllib基础

最新推荐文章于 2025-12-04 16:02:23 发布

转载最新推荐文章于 2025-12-04 16:02:23 发布 · 203 阅读

·

0

·

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/TMMM/p/10821797.html

文章标签：

#json #爬虫 #数据库

本文详细介绍爬虫技术的应用，包括可爬取的数据类型如文本、图片、视频等，数据解析方法如JSON、正则表达式、BeautifulSoup等，以及数据保存方式。同时探讨了网页动态加载对抓取的影响及解决方案。

能爬取什么样的数据

　　网页文本：如HTML文档，Json格式化文本等
　　图片：　　获取到的是二进制文件，保存为图片格式
　　视频: 同样是二进制文件
　　其他：只要请求到的，都可以获取

如何解析数据

直接处理
Json解析
正则表达式处理
BeautifulSoup解析处理
PyQuery解析处理
XPath解析处理

抓取的页面数据和浏览器里看到的不一样的问题

　　因为很多网站中的数据都是通过js，ajax动态加载的，所以直接通过get请求获取的页面和浏览器显示的不同。

　　如何解决js渲染问题：

　　　　分析ajax
　　　　Selenium/webdriver
　　　　Splash
　　　　PyV8,Ghost.py

保存数据

　　文本：纯文本，Json,Xml等

　　关系型数据库： Mysql,oracle,sql server等结构化数据库

　　非关系型数据库：MongoDB,Redis等key-value形式存储

urllib

官方文档：https://docs.python.org/zh-cn/3/library/urllib.html

urllib介绍

Urllib是python内置的HTTP请求库，是python提供的一个用于发起和处理http请求和响应的框架。

后期的一些框架,比如： requests、 scrapy等都是基于它

包括以下四个模块：

　　urllib.error 　　　　异常处理模块
　　urllib.request 　　　请求模块
　　urllib.parse 　　　　 url解析模块
　　urllib.robotparser 　 robots.txt解析模块

转载于:https://www.cnblogs.com/TMMM/p/10821797.html

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。