- 博客(3)
- 收藏
- 关注
原创 selenium用try-except嵌套处理抓取异常(新闻抓取案例三)
今天练习的是新闻内容局部抓取,不需要打印全文,只需要打印前面两三段,所以可以直接定位到前三段的p标签content1=driver.find_element_by_xpath("//*[@id='newsmain-ej']/div/div[1]/div[1]/div[4]/div/p[1]").textcontent2=driver.find_element_by_xpath("//*[@...
2018-09-24 22:42:16
13958
1
原创 selenium多窗口切换抓取内容(新闻抓取案例二)
今天做的练习是抓取人民网上面的新闻,和第一篇笔记不同的是这次点击链接是在新窗口打开,涉及到切换窗口抓取的问题。xpath方法是定位到具体层级的,不能跳跃地忽略父从爷定位到孙。由于这次的案例是a标签被包裹在不同的父div中,所以可以用*表示任意父div,再定位到后面的p/strong/a里:links=driver.find_elements_by_xpath("/html/body/div[...
2018-09-24 17:16:19
2069
原创 selenium点击链接进入子页面抓取内容(新闻抓取案例一)
找了一个新闻网站练习爬虫抓取,目标:逐一点击目录标题,进入详细新闻页面,抓取子页面的标题和正文内容并打印出来,返回目录标题页,点击下一篇文章。注:没有新开窗口,是在原窗口实现跳转。新开窗口进行抓取看下一篇文章。试了很多种方法都抓取不到class=rightContent下面每个a标签里的href链接,开始思考是不是因为href链接都放在li列表里面导致。后面终于试到怎么获取这些在列表l...
2018-09-23 08:55:39
26381
6
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人