【Python网络爬虫学习01】爬取网络验证码

本文分享了如何使用Python进行网页内容爬取的基本方法,包括获取网页HTML源码、下载验证码图片并展示,以及后续计划实现自动登录和信息获取。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

      由于工作需要,最近刚刚开始自学python爬虫,最终的目标是能够随心所欲的爬取各种能看到的网页内容。这同时也是在优快云上第一篇博客,作为一个崭新的开始吧。

      一般的网页html源码获取很简单 ,以深圳公积金快速查询页面为例,以下两段代码都可以通过urllib2很方便的把页面源码爬下来

import urllib2
response = urllib2.urlopen('http://www.szzfgjj.com/zhcx/index.htm')
html = response.read()
print html

import urllib2  
req = urllib2.Request('http://www.szzfgjj.com/zhcx/index.htm')  
response = urllib2.urlopen(req)  
the_page = response.read()  
print the_page
      以下实现的功能是,下载验证码图片文件并显示。提示:需要下载安装PIL(http://www.pythonware.com/products/pil/)

import urllib,Image
imgurl='http://www.szzfgjj.com/code.jsp'
mypath='E:\MyPython\gjjcode.jpg'
saveimg=urllib.urlretrieve(imgurl,mypath)  
im = Image.open('E:\MyPython\gjjcode.jpg')
im.show()
    后面计划通过人工识别验证码,和其它参数一起自动登录该页面,并获取得到的信息


     

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值