每日分享:
千万不要因为别人的否定就开始自我否定,人生本来就是一个主观的过程,别人是否喜欢你,其实是对方世界的事,所以面对别人的不喜欢,不要自卑不要刻意讨好,你要专注的做自己
思路分析:
- url(网页的url)
- 创建driver对象
- 发送get请求
- parse data(分析处理数据)
- save data(保存数据)
- 翻页
在一个循环中反复执行4、5、6操作,如果到最后一页则跳出循环。
再说一些我写代码遇到的一些问题:
- 用xpath可以找到你想找的元素,但如果要对其进行点击操作,需要先下滑页面至页面内有该元素之后才可以点击
- 关于斗鱼中每个房间的封面图片的爬取,花了很多时间尝试,感觉应该设置有反爬,直接爬取,爬到了三张图片,后来设置了休眠时间,爬到图片多了几张,20s爬一张也只爬了不到十张。(因为自己也是初学者,还没有学习反爬、反反爬,所以就放弃了)
- 下滑操作前的time.sleep(1)是一定要写的(休眠时间自己设定),当时我是在这卡了很长的时间,因为发现网页并不下滑,所以也导致“下一页“这个元素点击失败。如果不设置休眠一秒,仔细看会发现,并不是页面不下滑,是页面下滑了之后又回到了顶部,可能这是一种反爬吧。
- 建议下一页的xpath自己用一个靠谱的方法写,比如用内容查找;当时直接复制的标签的xpath,翻页到第四页就