Python爬虫

本文介绍了一个简单的爬虫实现过程,包括使用requests库获取网页源码、利用BeautifulSoup解析HTML并提取所需数据的方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

爬虫的思路:
1.按一定的规律发送Http请求获得页面html的源码
2.利用正则或第三方模块解析html代码,提取有效的数据
3.将数据持久化到数据库

requests
requests是python的一个HTTP客户端库,用来发送请求给服务
1.安装requests,下载安装包

git clone git://github.com/kennethreitz/requests.git

然后进入该目录下执行

$ python setup.py install

简单例子:

import requests
re=requests.get("https://www.taobao.com/")

2.安装BeautifulSoup
Beautiful Soup 是用Python写的一个HTML/XML的解析器,它可以很好的处理不规范标记并生成剖析树(parse tree)。 它提供简单又常用的导航(navigating),搜索以及修改剖析树的操作。它可以大大节省你的编程时间。
下载地址:
https://www.crummy.com/software/BeautifulSoup/bs4/download/4.5/
解压缩到本地硬盘上,如C:\Python25下。

d C:\Python25\BeautifulSoup-3.2.1
setup.py build
setup.py install

简单例子

rom bs4 import BeautifulSoup
soup = BeautifulSoup(re.text,"html.parser")
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值