1.网页结构(了解)
网页构成三要素:HTML、JavaScript、css
head:网页的标题,不在网页内显示。body:网页内显示的内容(上边右图)。我们是爬取body中的内容。
(这是我本地写的一个网站,所以没有链接,所以肯定是不能用来爬虫的)
2.python爬虫用的库
python用于爬虫的库为urllib
-
urllib.request 用于打开和读取URL,
-
urllib.error 用于处理前面request引起的异常,
-
urllib.parse 用于解析URL,
4.urllib.robotparser用于解析robots.txt文件
3.通过request模块下的urlopen函数打开一个网页并获取内容。
代码如下:
urlopen参数如下:
urlopen(url, data=None, timeout=<object object at 0x000001D4652FE140>, *, cafile=None, capath=None, cadefault=False, context=None)。
1.url 参数:可以是一个表示URL的字符串(如:http://www.xxxx.com/)
2.data参数:data用来指明发往服务器请求中的额外的信息(如:在线翻译,在线答题等提交的内容,后边回用到)
其他参数很少用。
from urllib.request import urlopen
#导入urlopen函数
#读取网页内容,如果网页中又中文要用“utf-8”解码
html = urlopen(
"https://mp.youkuaiyun.com/postedit"
).read().decode('utf-8')
print(html)
运行结果
原网页代码: