【Python网络爬虫学习01】爬取网络验证码

最新推荐文章于 2024-03-21 21:26:16 发布

neioking

最新推荐文章于 2024-03-21 21:26:16 发布

阅读量2.7k

点赞数

CC 4.0 BY-SA版权

分类专栏：图片 python 爬虫文章标签： python 爬虫图片

本文链接：https://blog.youkuaiyun.com/neioking/article/details/22104037

python 同时被 3 个专栏收录

2 篇文章

订阅专栏

爬虫

2 篇文章

订阅专栏

图片

0 篇文章

订阅专栏

本文分享了如何使用Python进行网页内容爬取的基本方法，包括获取网页HTML源码、下载验证码图片并展示，以及后续计划实现自动登录和信息获取。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

由于工作需要，最近刚刚开始自学python爬虫，最终的目标是能够随心所欲的爬取各种能看到的网页内容。这同时也是在优快云上第一篇博客，作为一个崭新的开始吧。

一般的网页html源码获取很简单，以深圳公积金快速查询页面为例，以下两段代码都可以通过urllib2很方便的把页面源码爬下来

import urllib2
response = urllib2.urlopen('http://www.szzfgjj.com/zhcx/index.htm')
html = response.read()
print html

import urllib2  
req = urllib2.Request('http://www.szzfgjj.com/zhcx/index.htm')  
response = urllib2.urlopen(req)  
the_page = response.read()  
print the_page

以下实现的功能是，下载验证码图片文件并显示。提示：需要下载安装PIL（http://www.pythonware.com/products/pil/）

import urllib,Image
imgurl='http://www.szzfgjj.com/code.jsp'
mypath='E:\MyPython\gjjcode.jpg'
saveimg=urllib.urlretrieve(imgurl,mypath)  
im = Image.open('E:\MyPython\gjjcode.jpg')
im.show()

后面计划通过人工识别验证码，和其它参数一起自动登录该页面，并获取得到的信息