爬虫的思路:
1.按一定的规律发送Http请求获得页面html的源码
2.利用正则或第三方模块解析html代码,提取有效的数据
3.将数据持久化到数据库
requests
requests是python的一个HTTP客户端库,用来发送请求给服务
1.安装requests,下载安装包
git clone git://github.com/kennethreitz/requests.git
然后进入该目录下执行
$ python setup.py install
简单例子:
import requests
re=requests.get("https://www.taobao.com/")
2.安装BeautifulSoup
Beautiful Soup 是用Python写的一个HTML/XML的解析器,它可以很好的处理不规范标记并生成剖析树(parse tree)。 它提供简单又常用的导航(navigating),搜索以及修改剖析树的操作。它可以大大节省你的编程时间。
下载地址:
https://www.crummy.com/software/BeautifulSoup/bs4/download/4.5/
解压缩到本地硬盘上,如C:\Python25下。
d C:\Python25\BeautifulSoup-3.2.1
setup.py build
setup.py install
简单例子
rom bs4 import BeautifulSoup
soup = BeautifulSoup(re.text,"html.parser")