Python写hello world 深入之 写一个爬虫 (三)

  • Python 函数

在写爬虫之前,需要介绍一下Python的函数,函数可以是代码看起来更加的简洁,是程序模块化,在以后便于维护,也容易阅读,还可以使代码的重复利用率高,说了这么多,还是没概念?嘻嘻,直接说函数的定义吧:

  1.   Python函数以 def 关键词开头,后接函数标识符名称和圆括号()。
  2.   传入的参数和自变量必须放在圆括号中间。圆括号之间可以用于定义参数。
  3.   函数的第一行语句可以选择性地使用文档字符串—用于存放函数说明。
  4.   函数内容以冒号起始,并且缩进。
  5.   return [表达式] 结束函数,选择性地返回一个值给调用方。不带表达式的return相当于返回 None。

是不是很枯燥?举个列子吧:

# def 为关键词,TestFunc为函数名 parameters 为函数参数,然后就开始编写函数的内容了。

def TestFunc( parameters ):

# 打印  parameters  内容

print(parameters)

 

其中 # 后面的是注释。也就是#后面的不会被执行,

 

****基本爬虫的样子

在写爬虫前,需要知道爬虫是什么,为什么叫做爬虫?爬虫英文翻译为spider,又被称为网页蜘蛛,,是按照一定的规则,自动地抓取万维网信息的程序或者脚本。也就是获取网络上的信息的一种程序。

 

def get_URL_VerifyCode_icbc( ):

# 定义一个字符串来保存,一个图片地址

    url = "http://www.qq249191508.com/verifycode/"

    response = urllib.request.urlopen(url)

    html = response.read()

    file=open(tempFile,'wb')

    file.write(html)

file.close()

 

在hello word 中,加入上面的代码后,需要讲解一下,这些代码的意思与其中代码是怎么来的。

http://www.qq249191508.com/verifycode/ 是一个验证码的地址,用浏览器访问的话,可以看见一个图片。如果需要源码的话,可以去我的博客,查找验证码生成器。很容易的嵌入到你的网页中。

在文件的头部,还需要加入 import urllib.request 这句代码。如果你的python环境中,没有这个安装包,需要另外下载。

然后 urllib.request.urlopen(url)  是一个 http 请求,response 是这个http请求的返回值,

html = response.read()  是从返回值中读取数据,

file=open(tempFile,'wb') 

    file.write(html)

file.close()

是讲html 数据(其实是图片数据)保存到文件。这个就是爬虫的最初的样子了。是不是觉得编程其实不难,几句代码就搞定了。确实也是这样的。

是不是看出python 语言很简单呢? 确实就是这样的,作为一个C/C++ 程序员,学习Python简直就是易如反掌。 如果有什么问题,请加入 QQ群: 475733139,这是一个python 学习交流群。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

chen249191508

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值