最近由于工作需要爬取一些数据,分享几篇文章爬虫实战的文章。
网址:http://www.hdb.com/hangzhou/
对于爬虫首先你要了解一些基础知识,Http 请求等。使用chrome浏览器,安装一个插件,可以使用浏览器的抓包工具,我这里使用的是Safari浏览器,大致一样。在浏览器右击有一个检查元素,我的是Inspect Element。
我是用的是python,使用的requests库做请求,页面解析用lxml库,页面信息提取用xpath(这里浏览器我安装了一个xpath插件,作为一个xpath取值的验证工具)
提示:接下来几篇文章是用不同的页面解析工具和取值方法,包括Beautifulsoup、常用的正则取值等,希望可以继续看。
我需要爬取的是我在搜索框内输入关键词,然后返回的页面中活动商家的名称和手机号(注意只匹配手机号)
然后到二级页面取所需要的值,一个活动的店名,一个是手机号
首先你要从一级页面获取到每一个二级页面的对应链接,才可以进入二级页面取到对应的值
可以找到每个活动的信息都在ul这个标签下,一个li标签下面包含一个活动,点开后发现<a>标签里包着二级页面的链接,在href属性。所以你的目标是取到每一个<li>下的<a>标签的href属性的文本。
代码: