
Python爬虫
二十七º
嘿咻嘿咻!
展开
-
Python爬虫的两个基础示例
示例1:向百度/360搜索引擎提交关键字并爬取搜索页面百度的关键字接口:http://www.baidu.com/s?wd=keyword360的关键字接口:http://www.so.com/s?q=keywordkeyword指定搜索关键字。import requestsdef getHTMLText(url,kv): try: r = requests.g...原创 2019-10-12 16:13:41 · 168 阅读 · 0 评论 -
HTTP协议详解
emm,说一下国庆这几天的学习历程:本来是想抽出几天时间把Python爬虫入个门的,然后也通过各种途径扒出了许多教程。都说Python的ruquests模块好用,好用那就学学呗,然后学了没一会儿,,,似乎有点吃力,原因应该是requests模块是基于urllib模块的,因此许多讲解requests模块的文章就缩略了很多内容,于是回过头来学urllib,urllib又学了一段时间,似乎还有点吃...原创 2019-10-05 21:38:40 · 1937 阅读 · 0 评论 -
urllib.request模块学习(一)----urlopen()函数与Request类详解
urllib模块提供了一系列用于操作URL的功能。urllibPython3之后,urllib与urllib2模块合并为了一个模块,即urllib模块,因此处理URL时用一个urllib模块即可满足基本所需功能,Python3中还有一个拓展的urllib3模块,仅作了解。urllib可以被看作一个包,它由四个模块组成,分别为:urllib.request :最基本的http请求模...原创 2019-10-06 17:37:12 · 4118 阅读 · 0 评论 -
urllib模块学习(二)----urllib.parse模块与urllib.error模块
urllib.parseurllib.parse模块是一个用于解析URL的工具包,支持各种对URL的操作,包括拆分、拼接、编码、解码等。urllib.parse模块在功能上分为两大类:URL parsing(URL解析)和URL quoting(URL引用)。URL ParsingURL解析函数专注于将url字符串拆分为各种组件,或者将url组件合并为url字符串。即拆分和拼接。与...原创 2019-10-09 19:12:51 · 1277 阅读 · 0 评论 -
requests模块入门
requests库是比urllib更加方便实用的HTTP第三方库,它支持HTTP连接保持和连接池,支持使用cookie保持会话,支持文件上传,支持自动响应内容的编码,支持国际化的URL和POST数据自动编码。requests库下的主要方法requests.request():构造一个方法,它是支撑以下各方法的基础方法。requests.get():获取HTML网页的主要方法,对应于HTT...原创 2019-10-10 13:44:35 · 237 阅读 · 0 评论 -
网络爬虫基础
网络爬虫的尺寸爬取网页:小规模,数据量小,爬取速度不敏感(Requests库)爬取网站:中规模,数据量较大,爬取速度敏感(Scrapy库)爬取全网:大规模,建立搜索引擎,爬取速度关键(定制开发,无第三方库)网络爬虫带来的问题1.骚扰问题网络爬虫高频度的访问会给服务器带来极大的资源开销,对网站运行者来说,这无疑于一种骚扰。2.法律风险网络爬虫可能带来法律风险。这是因为服务器上的数...原创 2019-10-11 15:32:01 · 324 阅读 · 0 评论