- Python 函数
在写爬虫之前,需要介绍一下Python的函数,函数可以是代码看起来更加的简洁,是程序模块化,在以后便于维护,也容易阅读,还可以使代码的重复利用率高,说了这么多,还是没概念?嘻嘻,直接说函数的定义吧:
- Python函数以 def 关键词开头,后接函数标识符名称和圆括号()。
- 传入的参数和自变量必须放在圆括号中间。圆括号之间可以用于定义参数。
- 函数的第一行语句可以选择性地使用文档字符串—用于存放函数说明。
- 函数内容以冒号起始,并且缩进。
- return [表达式] 结束函数,选择性地返回一个值给调用方。不带表达式的return相当于返回 None。
是不是很枯燥?举个列子吧:
# def 为关键词,TestFunc为函数名 parameters 为函数参数,然后就开始编写函数的内容了。
def TestFunc( parameters ):
# 打印 parameters 内容
print(parameters)
其中 # 后面的是注释。也就是#后面的不会被执行,
****基本爬虫的样子
在写爬虫前,需要知道爬虫是什么,为什么叫做爬虫?爬虫英文翻译为spider,又被称为网页蜘蛛,,是按照一定的规则,自动地抓取万维网信息的程序或者脚本。也就是获取网络上的信息的一种程序。
def get_URL_VerifyCode_icbc( ):
# 定义一个字符串来保存,一个图片地址
url = "http://www.qq249191508.com/verifycode/"
response = urllib.request.urlopen(url)
html = response.read()
file=open(‘tempFile’,'wb')
file.write(html)
file.close()
在hello word 中,加入上面的代码后,需要讲解一下,这些代码的意思与其中代码是怎么来的。
http://www.qq249191508.com/verifycode/ 是一个验证码的地址,用浏览器访问的话,可以看见一个图片。如果需要源码的话,可以去我的博客,查找验证码生成器。很容易的嵌入到你的网页中。
在文件的头部,还需要加入 import urllib.request 这句代码。如果你的python环境中,没有这个安装包,需要另外下载。
然后 urllib.request.urlopen(url) 是一个 http 请求,response 是这个http请求的返回值,
html = response.read() 是从返回值中读取数据,
file=open(‘tempFile’,'wb')
file.write(html)
file.close()
是讲html 数据(其实是图片数据)保存到文件。这个就是爬虫的最初的样子了。是不是觉得编程其实不难,几句代码就搞定了。确实也是这样的。
是不是看出python 语言很简单呢? 确实就是这样的,作为一个C/C++ 程序员,学习Python简直就是易如反掌。 如果有什么问题,请加入 QQ群: 475733139,这是一个python 学习交流群。