用Python写爬虫——初体验

本文介绍了作者使用Python进行爬虫开发的初次体验,包括选择Python作为开发语言的原因、爬虫的基本概念及其分类,并通过爬取百度首页的例子展示了爬虫的具体实现。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

用Python写爬虫初体验


写在前边的话,首先问问自己为什么想写爬虫?
我的回答: 也许是喜欢吧。 想用Python做点有用的事情,比如:爬个天气呀,爬个各个快递公司的电话呀、爬个电影网站啊,等等。

学习爬虫之前必须要了解的知识
- python基础,这里有我学Python的记录
- 什么是爬虫 ? 简单的说就是通过程序爬取网页上的信息。
- 爬虫的分类:爬虫可分为 通用爬虫聚焦爬虫 两种.点击查看详细。这里我们重点关注的是聚焦爬虫

爬取百度首页

万事开头难,先从简单的开始做吧。

import urllib2
req = urllib2.Request("http://www.baidu.com")
res = urllib2.urlopen(req)
print res.code # 打印状态码
print res.read()# 打印响应体

这是在控制台显示的内容。
这里写图片描述
然后用浏览器打开百度首页,右键查看源代码。
这里写图片描述

仔细看看两张图,是不是有一样的地方。
没错,这就是通过python抓取的百度首页 。由于显示行数较多,只截取了头几行。

关于HTTP状态码的资料

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值