简单的Python爬虫程序

最新推荐文章于 2025-11-06 11:25:26 发布

原创最新推荐文章于 2025-11-06 11:25:26 发布 · 921 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫

Python 专栏收录该内容

0 篇文章

订阅专栏

本文介绍了一种使用 Python 的 urllib 和 re 模块从百度贴吧网页中抓取图片的方法。通过正则表达式匹配，程序能够准确地定位到每个图片的 URL，并将其下载到本地文件夹。

部署运行你感兴趣的模型镜像

# coding=utf-8

import urllib
import re

f = urllib.urlopen("http://tieba.baidu.com/p/4093780003")
html = f.read()
f.close()

reg = r'src="(.+?\.jpg)"'
imgre = re.compile(reg)
imglist = re.findall(imgre, html)

for x, imgurl in enumerate(imglist):
	urllib.urlretrieve(imgurl, "pic/%s.jpg" % x)
	print x, " ",

您可能感兴趣的与本文相关的镜像

Python3.10

Conda

Python

Python 是一种高级、解释型、通用的编程语言，以其简洁易读的语法而闻名，适用于广泛的应用，包括Web开发、数据分析、人工智能和自动化脚本

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

不得了啦

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

一个简单的python爬虫程序

czsupercar的博客

09-24

1062

具体实现开发环境 python3.6pycharm 主要依赖库 urllib-- 基础性的网络相关操作lxml-- 通过xpath语法解析HTML页面json-- 对通过API获取的JSON数据进行操作re-- 正则操作代码实现概述这是一个简单的python爬虫程序，仅用作技术学习与交流，主要是通过一个简单的实际案例来对网络爬虫有个基础的认识。什么是网络爬虫简单的讲，网络爬虫就是模拟人访问web站点的行为来获取有价值的数据。专业的解释:百度百科分析爬虫需求 ...

Python网络爬虫第一篇

weixin_45480995的博客

12-16

500

Python网络爬虫第一篇（一）：为什么要学习网络爬虫？大数据成为当今时代的热门话题之一，在数据量爆发增长的互联网时代，网站与用户沟通实质为数据的交换。如果大量的数据得以分析，我们能够对事件的看法，解决方案做出更好的决策。而网络爬虫技术，则是大数据分析领域的第一个环节。（二）：能从网络上爬取什么数据？所有在网页能见到的数据都可以通爬虫程序保存下来。（三）：python爬虫的流程获取网页——解析网页（提取数据）——存储数据 1：获取网页：给一个网址发送请求，该网址会返回整个网页的数据。基础技术

参与评论您还未登录，请先登录后发表或查看评论

python 简单网络爬虫程序

09-01

注释清晰简单易懂适合刚刚接触网络爬虫以及python语言的初学者

新手教程·如何使用python爬取网站数据

最新发布

qq_27496129的博客

11-06

2234

许多网站会对非浏览器来源的请求进行限制或直接拒绝服务。这是因为默认情况下，requests发出的请求缺少某些典型浏览器特征，比如 User-Agent 头部。因此，在实际爬虫开发中，必须通过自定义请求头来伪装成真实用户访问。Win64;q=0.8",上述代码设置了多个关键头部字段：User-Agent：声明客户端身份，防止被识别为爬虫；Accept：告知服务器能接受的内容类型；

简单的python爬虫程序

亦已焉哉

02-25

942

首先文章是看的别人的 https://www.cnblogs.com/xueweihan/p/4592212.html 相比较下，我的更简单些。爬取的网站是http://bohaishibei.com/post/category/main/ 过程的话，可以看上面那位作者写的过程。我在本文中就不一一赘述了。下面直接上代码。记录自己的学习过程 import re from urlli...

精选资源

Python爬虫程序源代码-163、百度、百度云、哔哩哔哩、中国知网爬虫程序及其说明.zip

12-22

Python爬虫程序是数据获取的重要工具，尤其在信息丰富的互联网时代，它可以帮助我们自动化地从网站上抓取大量数据。本压缩包包含了针对163网易、百度、百度云、哔哩哔哩以及中国知网这五个不同平台的爬虫程序源代码...

精选资源

python 爬虫程序链家

01-05

python 爬虫程序链家 python 爬虫程序链家 python 爬虫程序链家 python 爬虫程序链家 python 爬虫程序链家 python 爬虫程序链家 python 爬虫程序链家 python 爬虫程序链家 python 爬虫程序链家 python 爬虫程序链家 ...

81个Python爬虫程序完整代码

05-22

以下是一份包含81个Python爬虫源代码的资源介绍，这些爬虫涉及多种类型的网站。具体来说，涵盖了新闻类网站的爬虫，能够抓取新闻资讯等内容；有针对视频类网站的爬虫，用于获取视频相关信息；还有中介类网站的爬虫，...

python爬虫代码运行-怎么运行python爬虫程序PDF

07-17

python爬程序运有两种式:1、在python交互式命令下直接输python代码回车运;2、在命令中使“python 件名.py”。 python运有两种式，种是在python交互式命令下运;另种是使本编辑器，在命令中直接运。注意:以上两种运式...

精选资源

python爬虫代码源码.rar

02-25

python爬虫程序可用于收集数据。这也是最直接和最常用的方法。由于爬虫程序是一个程序，程序运行得非常快，不会因为重复的事情而感到疲倦，因此使用爬虫程序获取大量数据变得非常简单和快速。由于99%以上的网站是...

python-网络爬虫

02-20

python-网络爬虫python-网络爬虫python-网络爬虫python-网络爬虫python-网络爬虫

python简单爬虫程序

u011761393的博客

01-06

510

简单爬取百度壁纸的python程序

python爬虫程序

恰到好处a的博客

10-13

933

本文为python爬虫用法部分方法，欢迎大家查看！！！

一个简单的Python爬虫

PigeonEssence的博客

01-07

1088

最近研究了一下Python，学以致用，写一个小爬虫：基础的爬虫就是通过编写程序查看页面获取资源，简单来说也就是模拟浏览器发请求。那么我们需要做的也就是用程序模拟浏览器，输入一个网址，获取资源内容。和java相比，Python搞定需求很简单，所以选择了用Python做：简单的爬虫分为三部： 1.导入Python包 from urllib import urlopen 2.输入需要爬取的URL url = "http://w...

python编写的简单爬虫程序

jiangfengyu的专栏

11-25

876

本文目的：从某个网站作为起点，爬虫获取到指定数目的图片、或者ftp资源；然后结束。主要使用HTMLParser解析资源（开始使用SGMLParser，但是发现img标签不能解析出来，就换了这个）。拷贝代码保存，python $文件名就可以运行了。使用时主要需要修改的就是HOST/URI （爬虫开始的URL），NUM_ALL（指定获取资源的数目，到这个数目之后停止，运行

图解爬虫，用几个最简单的例子带你入门Python爬虫

ZackSock的博客

11-26

9880

一、前言爬虫一直是Python的一大应用场景，差不多每门语言都可以写爬虫，但是程序员们却独爱Python。之所以偏爱Python就是因为她简洁的语法，我们使用Python可以很简单的写出一个爬虫程序。本篇博客将以Python语言，用几个非常简单的例子带大家入门Python爬虫。二、网络爬虫如果把我们的因特网比作一张复杂的蜘蛛网的话，那我们的爬虫就是一个蜘，我们可以让这个蜘蛛在网上任意爬行，在...

Python 实现简单的爬虫

zihong522的博客

01-06

6465

Python 是一种跨平台的计算机程序设计语言，面向对象动态类型语言，Python是纯粹的自由软件,源代码和解释器cpython遵循 GPL(GNU General Public License)协议，随着版本的不断更新和语言新功能的添加，Python 越来越多被用于独立的、大型项目的开发。快速抓取网页: 使用urllib最基本的抓取功能,将百度首页的内容保存到本地目录下. import urllib.request res=urllib.request.urlopen(“https://www.b