用Python写爬虫初体验
写在前边的话,首先问问自己为什么想写爬虫?
我的回答: 也许是喜欢吧。 想用Python做点有用的事情,比如:爬个天气呀,爬个各个快递公司的电话呀、爬个电影网站啊,等等。
学习爬虫之前必须要了解的知识
- python基础,这里有我学Python的记录
- 什么是爬虫 ? 简单的说就是通过程序爬取网页上的信息。
- 爬虫的分类:爬虫可分为 通用爬虫 和 聚焦爬虫 两种.点击查看详细。这里我们重点关注的是聚焦爬虫
爬取百度首页
万事开头难,先从简单的开始做吧。
import urllib2
req = urllib2.Request("http://www.baidu.com")
res = urllib2.urlopen(req)
print res.code # 打印状态码
print res.read()# 打印响应体
这是在控制台显示的内容。
然后用浏览器打开百度首页,右键查看源代码。
仔细看看两张图,是不是有一样的地方。
没错,这就是通过python抓取的百度首页 。由于显示行数较多,只截取了头几行。