python多线程爬虫学习--urllib的使用

最新推荐文章于 2024-08-17 14:15:26 发布

ezLeo

最新推荐文章于 2024-08-17 14:15:26 发布

阅读量487

点赞数

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/myiloveuuu/article/details/77461743

本文介绍如何利用Python的urllib库实现简单的网页抓取功能。通过几个基本函数即可完成网页状态及内容的获取，为后续的数据分析或网页爬虫打下基础。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

urllib是访问网址的利器。

通过几个函数就可以轻松获取请求网页的状态，网页的内容等信息

具体函数如下：

urlopen(url)

read()

close()

实例：

  import urllib
  
  page=urlopen("http://blog.youkuaiyun.com/myiloveuuu/article/details/77411771")
  
  htmlContent=page.read()
  
  page.close()

htmlContent是访问页面获取的页面内容，和在网页上通过鼠标右键查看网页源码内容一致。我们网页爬虫所做的大部分操作和正则的使用都是在这个页面内容上做文章的。下面一篇我会说明正则的使用

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

ezLeo

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Python常用模块之 urllib&&urllib3 【爬虫库】

孤寒者的博客

09-15

10万+

Python常用模块之 urllib&&urllib3 【爬虫库】

Python 通过urllib进行多线程下载

qq_24296409的博客

08-08

896

Python多线程下载 http: range, content-length python实现 HTTP Range, Content-Length: Content-Length: 1394829 HTTP头Content-Length用于描述HTTP消息实体的传输长度 Range: bytes=0-1 HTTP头信息Range用于请求服务器返回文件的某个字段，不过在大部分情况请求页面文件不会返回该页面文件的字段，而是返回全部。（0-1表示的是前两个字节）实现 import os, sys

参与评论您还未登录，请先登录后发表或查看评论

python使用urllib模块开发的多线程豆瓣小站mp3下载器

weixin_34279246的博客

03-16

109

#! /usr/bin/python2.7# -- coding:utf-8 --import os, urllib,urllib2, thread,threadingimport re#匹配音乐urlreg=re.compile('{"name":"(.+?)".+?"rawUrl":"(.+?)",.+?}', re.I) class downloa...

PythonCrawler urllib 多线程获取proxy池爬取数据

AdamShyly的博客

05-02

382

此次实验使用多线程获取proxy池来增加爬虫爬取下载数据的速度，顺便测试一下urllib handler代理注意由于线程爬取数据过快可能会导致ip被封，要适当增加time.sleep否则会出现503错误，也可以改变获取proxy_ip的策略，我这里是采取random随机获取proxy列表下标，也可以试试轮询策略，但注意要加锁 from urllib import request as ure import random import threading import time import ssl

urllib多线程介绍代码实现

wangxihe2012的博客

05-31

508

import threading # 导入多线程包 class A(threading.Thread): # 创建一个多线程A def __init__(self): # 必须包含的两个方法之一:初始化线程 threading.Thread.__init__(self) def run(self): # 必须包含的两个方法之一：线程运行方法 ...

python多线程写入数据库urllib_Python基于多线程实现抓取数据存入数据库的方法

weixin_39989159的博客

02-20

254

本文实例讲述了Python基于多线程实现抓取数据存入数据库的方法。分享给大家供大家参考，具体如下：1. 数据库类"""使用须知：代码中数据表名 aces ，需要更改该数据表名称的注意更改"""import pymysqlclass Database():# 设置本地数据库用户名和密码host = "localhost"user = "root"password = ""database = "te...

Python爬虫-请求模块urllib3

最新发布

andyyah晓波的博客

08-17

1056

发送网络请求后，将返回一个HTTPResponse对象，通过该对象中的info（）方法即可获取HTTP响应头信息，该信息为字典（dict）类型的数据，所以需要通过for循环进行遍历才可清晰的看到每条响应头信息内容。如果服务器返回了一条JSON信息，而这条信息中只有某条数据为可用数据时，可以先将返回的JSON数据转换为字典（dict）数据，接着直接获取指定键所对应的值即可。请求头信息获取完成以后，将“User-Agent”设置为字典（dict）数据中的键，后面的数据设置为字典（dict）中 value。

python多线程爬虫学习--去除html的标签

一步一脚印

08-16

4561

import reimport urllib page = urllib.urlopen("http://www.baidu.com") html = page.read() pattern = re.compile(r']+>', re.S) result = pattern.sub('', html) print result re.compile返回的是一个正则的表达的

基于Linux的python多线程爬虫程序设计.zip

10-16

最后，`基于Linux的python多线程爬虫程序设计.pdf`很可能包含详细的教程和示例代码，读者可以结合这份文档深入学习多线程爬虫的实现细节。通过实际项目练习，可以更好地理解和掌握这一技术，提升自己的编程能力。在...

2024年Python最全python多线程爬虫框架

2401_84584552的博客

04-30

710

’’#如果有缓存方式,缓存网页print(url,“页面下载完成”)‘’’用于下载一个页面,返回页面和与之对应的状态码‘’’#构建请求if proxy:#如果有代理IP,使用代理IPtry:#下载网页print(“code是”,response.code)print(“下载出现错误”,str(e))html = ‘’#如果错误不是未找到网页,则重新下载num_retries次else:‘’’按照延时,请求,代理IP等下载网页,处理网页中的link的类‘’’‘’’

【项目实战】利用urllib实现多线程爬取糗事百科段子

mxt的博客

01-24

530

import threading import urllib.request import re import ssl #把ssl设置为未验证， ssl._create_default_https_context = ssl._create_unverified_context #给opener添加header,伪装成浏览器 header = ("User-Agent","Mozilla/5.

python 线程与urllib操作

ZENGshuihai的博客

04-08

546

1.多线程同步: import threading ,time exitFlag = 0 class My_thread(threading.Thread): def __init__(self,threadID,name,delay): threading.Thread.__init__(self) self.threadID = threadID self.name = name self.delay = delay d

Python爬虫-快速入门 urllib+beautifulsoup4+多线程（附wiki data实体搜索等各种demo）

River_sum的博客

09-10

3665

写在前面：最近工作又要用到爬虫，利用商品的名称在wiki data上搜索实体id，再根据实体id爬取对应的实体详细信息。虽然wiki官网上建议我们串行爬取数据，但速度实在是太慢了（预估要爬12天，显然不河里），因此记录了下常用的各种包的用法，并编写了一个多线程的脚本（一小时左右就爬完了），分享出来供大家参考~ 注：wiki data需要科学上网，不能的话用下面baidu的demo练手即可~ 1.urllib与beautifulsoup 这俩好兄弟是黄金组合，举个例子，拿到一条你需要爬..

python:多进程、多线程、urllib模块、爬取网页图片

liuxe1990的博客

05-19

466

什么是进程 • 计算机程序只不过是磁盘中可执行的、二进制(或其它类型)的数据 • 进程(有时被称为重量级进程)是程序的一次执行 • 每个进程都有自己的地址空间、内存以及其它记录其运行轨迹的辅助数据 • 操作系统管理在其上运行的所有进程,并为这些进程公平地分配时间 ######################################################### 什么是线程 • 线...

python 多线程时,urllib2的古怪问题

异域苍穹

05-20

2971

如果服务器限制了并发为1，并且满足如下条件setDaemon(True)如果一个线程类里有这一句并且该类里有urllib2的请求那么第2次实例化后，urllib2的urlopen方法就不能使用了。否则会报错,错误如下Exception in thread Thread-2 (most likely raised during interpreter shutdown):Traceback

Urllib3+BeautifulSoup+Thread：多线程爬虫教程（爬取西刺代理IP）

yungeisme的博客

06-02

1952

导入模块 from bs4 import BeautifulSoup import urllib3 import urllib import threading Urllib3+BeautifulSoup+Thread：多线程爬虫教程（爬取西刺代理IP）爬虫是学python中最好玩的学习方法，也是方便生活、工作中的有效利器，爬虫帮我们工作，那会节省大量的人力。在该博客中，分成...

遇到问题--python--爬虫--urllib的使用协程没有并发的效果

直到世界的尽头

05-27

747

情况方法代码如下： async def get_product_info(): pagelinks=findNoDealedGoodlookProductInfoLinkt(0, 150000) n = 0 for p in pagelinks: try: n=n+1 print("product_info"...

python 单线程与多线程爬虫

zyxyzz的博客

10-22

2502

帮别人写爬虫，先是单线程，太慢，改了多线程 1.单线程 import urllib import urllib.request import requests import xlwt import re import string def set_style(name,height,bold=False): style = xlwt.XFStyle() # 初始化样式 font

python异步--aiohttp

HWQlet的博客

05-26

1892

requests大家应该都不陌生是，urllib和urllib2的改进版，我们做爬虫的时候经常要用到这个第三方库来请求网页并且获取网页内容但是requests的方法有个不好的就是不能等待，也就是说无法放在await后面，因此无法使用requests库在协程程序中实现请求因此就出现了aiohttp用来实现异步网页请求，可以理解为异步版本的requests 基本用法官方推荐使用ClientSession()函数来调用网页请求等相关方法首先，我们在协程中使用ClientSession()的get

Python多线程爬虫高效抓取电影资源实测

3. Python多线程：Python中的多线程是一种并发执行多个线程的能力。在爬虫项目中，多线程可以同时向多个服务器发送请求，获取数据，从而大大提高了爬虫的工作效率。Python的多线程实现主要依赖于threading模块。 4....