我是用windows系统,虽然也想装B用下linux,但是装不住....
第1章初见网络爬虫
1.1网络连接
本书用的是python3,现在使用的是python的标准库,urllib,用得比较多的应该是requests库。
urllib库的官方文档:https://docs.python.org/3/library/urllib.html
1.2 BeautifulSoup简介
1.2.1 安装BeautifulSoup
官方文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc/
使用pip命令安装BeautifulSoup库:你装IDLE的时候,没添加到环境变量的话,应该是要在命令行窗口进入python安装目录的script文件夹下面,再输入以下命令:
pip install beautifusoup4
1.2.2 运行BeautifulSoup
我修改了一下书上的例子,因为我访问他那个网站太慢了。
from urllib.request import urlopen
from bs4 import BeautifulSoup
html = urlopen("http://www.baidu.com")
#书上没有写'html.parser',很多教程好像都不写这个,但是我运行就会报错,必须加上解析的。
bsObj = BeautifulSoup(html.read(),'html.parser')
#书上输出的是<h1>,我输出<title>
print(bsObj.title)
运行结果如下:
<title>百度一下,你就知道</title>
1.2.3 可靠的网络连接
主要是讲处理异常,让程序能一直运行下去。
from urllib.request import urlopen
from bs4 import BeautifulSoup
from urllib.error import HTTPError
def getTitle(url):
try:
html = urlopen(url)
except HTTPError as e:
return None
try:
bsObj = BeautifulSoup(html.read(),"html.parser")
title = bsObj.title
except AttributeError as e:
return None
return title
title =getTitle("http://www.baidu.com")
if title == None:
print("Title could not be found!")
else:
print(title)