数据提取工具有很多,这里只介绍BeautifulSoup的简单使用和小案例
因为有写的很好的介绍博客,所以我直接粘链接
BeautifulSoup介绍链接:https://cuiqingcai.com/1319.html
案例依旧选用没有反爬的 豆瓣电影Top250
第一步:获取源码
简单的三句话
# 导入requests模块 import requests # 导入BeautifulSoup模块 from bs4 import BeautifulSoup # 获取要爬取的网页的url url = 'https://movie.douban.com/top250' # 用get()方法请求下载网页 rsp = requests.get(url) # text属性返回网页源码的内容 text = rsp.text
第二步:找到数据的位置
通过用浏览器的开发者工具查看源码
发现每一个电影都包含在<li>的<div class='it