豆瓣网的数据都是通过ajax异步加载上去的,所以我们按照xpath的方式提取数据是提取不完整的
第一步:确定爬取的URL并找到参数规律
1.进入到爬取的目标界面
进入到豆瓣网,点击分类,会显示出下图的界面
2.找到Ajax的请求信息
打开chrome的开发者工具刷新下界面
选中Network→XHR,然后就会看到ajax请求的url和参数了
3.分析数据结构
双击上面的路径,会看到json数据的内容(图1)
把数据复制出来,格式化以后,可以看到data列表里面存放多个字典结构的数据
图1.
图2.