from urllib.request import urlopen, Request
from lxml import etree
#构造函数,抓取第i页信息
# 构造第i页的网址
url = 'https://movie.douban.com/top250?start=%s&filter='
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'}
ret = Request(url, headers=headers)
res = urlopen(ret)
aa = res.read().decode('utf-8')
print(aa)
https://blog.youkuaiyun.com/sinat_37812785/article/details/104247874
豆瓣电影Top250爬虫实战
本文介绍了一个使用Python进行网页爬取的实例,目标是从豆瓣网站抓取Top250电影列表页面的数据。通过发送HTTP请求并解析返回的HTML文档,实现了对特定网页内容的抓取。

被折叠的 条评论
为什么被折叠?



