爬虫的基本原理——通用框架
- 选取种子URL;
- 将这些URL放入待抓取的URL列队;
- 取出带抓取的URL,下载并存储进已下载网页库中。此外,讲这些URL放入带抓取URL列队,进入下一循环。
- 分析已抓取列队中的URL,并且将URL放入带抓取URL列队,从而进去下一循环。
本质就是
发起请求 --> 获取响应内容 --> 解析内容 --> 保存数据
首先,需要做的就是导入模块
pip install requests
pip install lxml
#-*- coding:utf-8 -*-
import requests
from lxml import etree
选取网页并做解析
这里以《Titanic》作为案例:
https://movie.douban.com/subject/1292722/?tag=%E7%BB%8F%E5%85%B8&from=gaia_video
要获取我们需要的电影名,首先定位xml网页中信息,这里就需要用到Fire xpath插件。
添加并安装浏览器模块后,重启浏览器生效。
在目标web页面上查找信息的xpath
这里电影标题的xpath为://*[@id=”content”]/h1/span[1]