洛书桃-优快云博客

原创 selenium用try-except嵌套处理抓取异常（新闻抓取案例三）

今天练习的是新闻内容局部抓取，不需要打印全文，只需要打印前面两三段，所以可以直接定位到前三段的p标签content1=driver.find_element_by_xpath("//*[@id='newsmain-ej']/div/div[1]/div[1]/div[4]/div/p[1]").textcontent2=driver.find_element_by_xpath("//*[@...

2018-09-24 22:42:16 14022 1

原创 selenium多窗口切换抓取内容（新闻抓取案例二）

今天做的练习是抓取人民网上面的新闻，和第一篇笔记不同的是这次点击链接是在新窗口打开，涉及到切换窗口抓取的问题。xpath方法是定位到具体层级的，不能跳跃地忽略父从爷定位到孙。由于这次的案例是a标签被包裹在不同的父div中，所以可以用*表示任意父div，再定位到后面的p/strong/a里：links=driver.find_elements_by_xpath("/html/body/div[...

2018-09-24 17:16:19 2122

原创 selenium点击链接进入子页面抓取内容（新闻抓取案例一）

找了一个新闻网站练习爬虫抓取，目标：逐一点击目录标题，进入详细新闻页面，抓取子页面的标题和正文内容并打印出来，返回目录标题页，点击下一篇文章。注：没有新开窗口，是在原窗口实现跳转。新开窗口进行抓取看下一篇文章。试了很多种方法都抓取不到class=rightContent下面每个a标签里的href链接，开始思考是不是因为href链接都放在li列表里面导致。后面终于试到怎么获取这些在列表l...

2018-09-23 08:55:39 26610 6

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人