Python写hello world 深入之写一个爬虫 (三)

chen249191508

于 2019-09-05 10:55:22 发布

阅读量331

点赞数

分类专栏： Python 文章标签： python 爬虫初步

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/chen249191508/article/details/100553725

版权

Python 专栏收录该内容

19 篇文章

订阅专栏

Python 函数

在写爬虫之前，需要介绍一下Python的函数，函数可以是代码看起来更加的简洁，是程序模块化，在以后便于维护，也容易阅读，还可以使代码的重复利用率高，说了这么多，还是没概念？嘻嘻，直接说函数的定义吧：

Python函数以 def 关键词开头，后接函数标识符名称和圆括号()。
传入的参数和自变量必须放在圆括号中间。圆括号之间可以用于定义参数。
函数的第一行语句可以选择性地使用文档字符串—用于存放函数说明。
函数内容以冒号起始，并且缩进。
return [表达式] 结束函数，选择性地返回一个值给调用方。不带表达式的return相当于返回 None。

是不是很枯燥？举个列子吧：

# def 为关键词，TestFunc为函数名 parameters 为函数参数，然后就开始编写函数的内容了。

def TestFunc( parameters ):

# 打印 parameters 内容

print(parameters)

其中 # 后面的是注释。也就是#后面的不会被执行，

****基本爬虫的样子

在写爬虫前，需要知道爬虫是什么，为什么叫做爬虫？爬虫英文翻译为spider，又被称为网页蜘蛛，，是按照一定的规则，自动地抓取万维网信息的程序或者脚本。也就是获取网络上的信息的一种程序。

def get_URL_VerifyCode_icbc( ):

# 定义一个字符串来保存，一个图片地址

url = "http://www.qq249191508.com/verifycode/"

response = urllib.request.urlopen(url)

html = response.read()

file=open(‘tempFile’,'wb')

file.write(html)

file.close()

在hello word 中，加入上面的代码后，需要讲解一下，这些代码的意思与其中代码是怎么来的。

http://www.qq249191508.com/verifycode/ 是一个验证码的地址，用浏览器访问的话，可以看见一个图片。如果需要源码的话，可以去我的博客，查找验证码生成器。很容易的嵌入到你的网页中。

在文件的头部，还需要加入 import urllib.request 这句代码。如果你的python环境中，没有这个安装包，需要另外下载。

然后 urllib.request.urlopen(url) 是一个 http 请求，response 是这个http请求的返回值，

html = response.read() 是从返回值中读取数据，

file=open(‘tempFile’,'wb')

file.write(html)

file.close()

是讲html 数据(其实是图片数据)保存到文件。这个就是爬虫的最初的样子了。是不是觉得编程其实不难，几句代码就搞定了。确实也是这样的。

是不是看出python 语言很简单呢？确实就是这样的，作为一个C/C++ 程序员，学习Python简直就是易如反掌。如果有什么问题，请加入 QQ群: 475733139,这是一个python 学习交流群。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

chen249191508 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。