01步获取网页信息

豆瓣电影Top250爬虫实战

原创于 2020-09-03 09:34:14 发布 · 115 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python

本文介绍了一个使用Python进行网页爬取的实例，目标是从豆瓣网站抓取Top250电影列表页面的数据。通过发送HTTP请求并解析返回的HTML文档，实现了对特定网页内容的抓取。

from urllib.request import urlopen, Request
from lxml import etree
#构造函数，抓取第i页信息

    #  构造第i页的网址

url = 'https://movie.douban.com/top250?start=%s&filter='
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'}
ret = Request(url, headers=headers)
res = urlopen(ret)
aa = res.read().decode('utf-8')
print(aa)

https://blog.youkuaiyun.com/sinat_37812785/article/details/104247874