python爬虫urllib库学习（源码）

最新推荐文章于 2022-03-26 20:57:06 发布

原创最新推荐文章于 2022-03-26 20:57:06 发布 · 1.3k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#py

python 专栏收录该内容

4 篇文章

订阅专栏

本文介绍了Python的urllib库在爬虫中的应用，包括如何构造复杂请求、使用cookie以及解析URL。示例代码展示了如何创建request对象、处理HTTPCookie及使用urlparse进行URL解析。

部署运行你感兴趣的模型镜像

####urllib库的使用
import urllib.request
import http.cookiejar
from urllib.parse import urlparse

# 复杂请求构造request对象；
# respons = urllib.request.Request("https://www.python.org")
# response=urllib.request.urlopen(respons)
# print(response.read().decode("utf-8"))

###cookie的使用
# url="http://www.baidu.com"
# cookie=http.cookiejar.CookieJar()
# handlr=urllib.request.HTTPCookieProcessor(cookie)
# opener=urllib.request.build_opener(handlr)
# result=opener.open(url)
# # for item in cookie:
# #     print(item.name+"="+item.value)
# #respons=urllib.request.Request(url=url,)
# print(result.read())

#####urlprase的使用   ！！！！注意引用的方式
# res=urlparse("https://www.sogou.com/web?ie=UTF-8&query=python+from..import+%E5%92%8C%E7%9B%B4%E6%8E%A5import+%E7%9A%84%E5%8C%BA%E5%88%AB")
# print(type(res),res)

您可能感兴趣的与本文相关的镜像

Python3.8

Conda

Python

Python 是一种高级、解释型、通用的编程语言，以其简洁易读的语法而闻名，适用于广泛的应用，包括Web开发、数据分析、人工智能和自动化脚本

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

wayneQT

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Python常用模块之 urllib&&urllib3 【爬虫库】

孤寒者的博客

09-15

10万+

Python常用模块之 urllib&&urllib3 【爬虫库】

两万字博文教你python爬虫requests库【详解篇】

热门推荐

孤寒者的博客

07-12

63万+

两万字博文教你python爬虫requests库【详解篇】

参与评论您还未登录，请先登录后发表或查看评论

Python之美[从菜鸟到高手]--urllib源码分析

Skycrab

11-23

1万+

urllib提供了较好的封装，可以很方便的读取http，ftp，file等协议数据，本篇只关注http。urllib的底层还是使用httplib模块，相比于httplib，urllib接口更加好用，功能更加强大。支持http代理，可从环境变量中获取代理信息，支持http basic auth，可自动处理302等。但也有不足，如不支持gzip等压缩编码，不支持摘要认证，NTML认证等。

urllib源码简单分析

weixin_33755649的博客

09-20

201

对下面这段代码做分析 import urllib params = urllib.urlencode({'wd': 'python'}) f = urllib.urlopen("http://www.baidu.com/s?%s" % params) print f.read() 这是一段简单读取url内容的代码此处最关键的是urlopen，通过查看，可以看到urlopen的...

【原创】python urllib2/httplib 源码

张志鹏的博客

03-20

615

#看过源码的感觉就是，urllib2重构了很多层代码。。很多我们用不到。。。 # # 在微博上闲逛，然后看到知道余弦大神说“知道创于研发技能表v3.0”马上就要面世，所以去官网找了找，没找到。。所以还是看了看《知道创于研发技能表v2.2》其中有一行，我发现我没看到过，可见之前看的不仔细。。。 Python urllib2 打开请求响应调试编辑urllib2的do_open

Python3中urllib使用与源代码

weixin_30727835的博客

09-08

471

Python3中urllib使用与源代码 Py2.x：Urllib库 Urllin2库Py3.x：Urllib库变化：在Pytho2.x中使用import urllib2——-对应的，在Python3.x中会使用import urllib.request，urlli...

python 3 urllib.request.urlopen()源码分析

ddzr972435946的博客

04-04

1098

最近爬取一个网页，这个网页的html文件获取很快，但是附带的javascript、css、图片等获取非常慢，有些甚至无法获取。最终会抛出超时或者无法获取的异常。我被迫看了一下urlopen()的源码，试图将程序在获取网页的过程中，在抛出异常之前，缓存在内存里的内容找出来。我现在没有源码，大概凭记忆写一下源码的流程。创建request类，里边有url、协议等一些信息。创建OpenerDirector...

python爬虫实战项目开发源码资源.zip

最新发布

12-05

在众多Python爬虫项目中，一个名为“spider-master”的项目脱颖而出，成为一个备受关注的实战开发资源。通过深入研究和分析该项目的源码，我们可以获得宝贵的学习经验，并在实战中提升我们的编程和数据处理能力。 ...

Python爬虫 urllib2的使用方法详解

01-20

在Python中有很多库可以用来抓取网页，我们先学习urllib2。 urllib2是Python2.x自带的模块(不需要下载，导入即可使用) urllib2官网文档：https://docs.python.org/2/library/urllib2.html urllib2源码 urllib2在...

Python爬虫实现百度翻译源码

04-16

**Python爬虫实现百度翻译源码** 在编程领域，Python是一种广泛应用的语言，尤其在数据抓取和处理方面，它的强大库支持使得爬虫编写变得简单高效。本篇将深入探讨如何利用Python编写爬虫实现百度翻译的功能。我们将...

Python源码

01-21

非持续python非持续python非持续python非持续python非持续python非持续python非持续python

python中的urllib库的学习

Json的知识梦工厂

07-09

439

# urllib 库详解 http 请求库# 什么是urllib# urllib.request 请求模块# urllib.error 异常处理模块# urllib.parse url解析模块工具模块# urllib.robotparser robots.txt 解析模块# 相比Python2 变化# python2# import urllib2# response =u...

python学习之urllib库学习一

菜鸟小白的学习分享

06-21

289

详细内容见如下链接： https://mp.weixin.qq.com/s?__biz=MzI3MjM0MDM3Mg==&mid=2247483750&idx=1&sn=f7ab3d96dc27efb0e1ff0e980e3438bc&chksm=eb35459ddc42cc8bd937adc3d09ca65de694ae1f9e4dd096b9f6be9cbf9d2f21f1c1f69e1018&token=462496053&lang=zh_CN#rd

python爬虫（一）urllib库基本使用

李余通的博客

03-16

1788

注，以下内容均为python3.5.*代码学习爬虫，首先有学会使用urllib库，这个库可以方便的使我们解析网页的内容，本篇讲一下它的主要用法解析网页#!/usr/bin/env python3 # coding=utf-8import urllib.requestrequest = urllib.request.Request("http://www.flycold.cn/python/test_

urllib3源码基本入门

叶子常常随风而落，分享博主日常学习和使用的一些技术

03-26

758

首先urllib3是一个大工程。这里的网页必须要读一下： https://urllib3.readthedocs.io/en/latest/advanced-usage.html 关于proxy，我简单读了一下，受益匪浅。至少，我了解到通过配置HTTP_PROXY和HTTPS_PROXY环境变量，可以声明代理。其实我一直好奇，为什么charles已启动就能变成系统代理，我有理由相信，它后台可能是用了类似于环境变量修改的功能。因为charles是java写的，所以更有理由相信其使用了类似的功能(未经证实

Python3 Urllib学习

Jerry_ICCAS的博客

01-07

815

urllib 的四个模块 1 . urllib.request 2. urllib.error 3. urllib.parser 4. urllib.robotparser import urllib.request response = urllib.request(“http://yaopu.github.io“) /#得到的是一个对象，response type(resp

urllib2源码阅读

weixin_33984032的博客

02-07

148

翻看两个库的源码，对urllib2代码高内聚、低耦合的特点，体会的还是不深。先写下来，慢慢分析、慢慢领悟吧。特意弄了个思维导图，对厘清代码的大概结构还是挺有帮助的。我按照函数和类去进行同urllib一样，urllib2中也可以调用urlopen方法，贴下这个函数的源码: 1 _opener = None 2 def urlopen(url, data=None, timeout=sock...

python代码下载urllib库_python学习:urllib库学习:资源下载

weixin_36297610的博客

01-29

625

python学习:urllib库学习:资源下载环境：主机:WIN8版本:python2.7.9说明：利用urllib的功能，制作一个下载器源代码:1.不带界面#coding=utf-8import urllibdef cbk(a, b, c):'''回调函数@a: 已经下载的数据块@b: 数据块的大小@c: 远程文件的大小'''per = 100.0 * a * b / cif per &gt...

python 网络爬虫北京公交

Open source, Open mind.

04-24

2354

周末没事研究了以下python中的HTMLParser库，学习了以下，写了个类似网络爬虫的代码，8684.cn中抓去北京公交线路的代码，代码只是实现了抓起的功能，并没有对数据做什么分析，也算是尝试着实现以下从网站获取信息的功能。python还是很强大的啊。直接上代码，如果想抓去其他城市的公交的话只需要把其中的INITIAL_URL 和BASE_URL进行修改就行，前提是8684.cn网站没有把自己