问题描述:
京东一页数据为30项,但分半加载,即先加载15项,下滑加载后半部分,导致爬取结果仅有15项。
该方法可泛用至任意动态下拉加载类网页。
解决方法:使用selenium + cromedriver
的方式设置自动下拉,等待加载完毕后进行爬取即可。
方法步骤:Selenium WebDriver提供了各种语言的编程接口,来进行Web自动化开发。
1.selenium的安装(百度可以找到详细的安装过程)
使用命令:
pip install selenium
安装完成后会出现仍未存在name 为selenium的错误,是因为我们未下载对应的webdriver。
2.下载安装对应版本的浏览器驱动
当然我们是通过各浏览器的驱动程序 来操作浏览器的,所以,还要有各浏览器的驱动程序。我们主要以谷歌的chrome浏览器为例来演示。
chrom
浏览器的web driver(chromedriver.exe
),可以在下面网址访问:
http://npm.taobao.org/mirrors/chromedriver/
firefox(火狐浏览器)
的web driver (geckodriver.exe
)在这里访问: