
爬虫项目
存放一些小项目
杨鸿儒
做自己喜欢的事。
展开
-
爬虫项目6[爬取网易云python课程数据]
登录界面是在iframe表单中,要获取iframe表单中的数据必须先进入iframe表单 模块selenium 在定位网页中的数据时,如果标签是在iframe表单种,直接定位是找不到的,必须跳转到iframe表单中才能整个程序中最重要的就是selenium中进入iframe标签,代码如下: iframe_element = browser.find_element_by_xpath() brows...原创 2020-03-07 10:34:09 · 423 阅读 · 0 评论 -
爬虫项目5[爬取拉钩网招聘数据]
用selenium接管浏览器,来规避检测 本来想直接在网页上找入口获取,但是没找到…,发现登陆之后在可以直接通过网页获取数据,所以就改用selenium,数据不难获取,主要是思路… 请求requests 解析selenium 重点:selenium接管浏览器 #chrome版本和chromedriver版本一定要一样 #chrome版本和chromedriver版本一定要一样 #chrome版...原创 2020-03-05 13:16:34 · 615 阅读 · 0 评论 -
爬虫项目4[爬取斗鱼直播数据]
不用通过页面源码获取,直接找数据的入口 斗鱼直播是一个典型使用ajax的页面,对于这样的页面简单粗暴,直接在网页控制台的xhr里面找入口 请求requests 解析json() 在线json校验工具:https://www.bejson.com/ 来到第一页发现没有什么特别瞩目的网页,继续往下找 来到第二页,发现了一个名为2的xhr文件,大胆猜想这玩意可能和页码有关,再看一页试试 来到第三页,果然...原创 2020-03-04 09:28:55 · 2618 阅读 · 0 评论 -
爬虫项目3[爬取酷狗音乐Top500歌名]
不用登陆可以直接爬取,数据好找,主要在于分析页面 参考于:https://blog.youkuaiyun.com/weixin_44835732/article/details/103350174 请求:requests 解析:xpath 看界面图片,看到下面要下载客户端,先不用慌,分析url,上边是1-8888,推测可能一共有8888页,但是总共500首歌曲,肯定不对,我们更改url试试看 果然,经过...原创 2020-03-03 10:55:12 · 945 阅读 · 0 评论 -
爬虫项目1[爬取小猪短租数据]
看了这个大神的博客—爬虫项目合集,自己也动手实践一下 请求:requests 解析:xpath 思路:找到起始网页(第一页),爬取初识网页的数据,获取下一页的链接,爬取下一页的数据,以此类推 非常简单,直接放代码: import requests from lxml import etree source_url = "http://bj.xiaozhu.com/" # 以北京地区为例 hea...原创 2020-03-02 11:34:00 · 1161 阅读 · 4 评论 -
爬虫项目2[抓取Angelimg上的图片]
网站地址:http://angelimg.spbeen.com/ import requests from lxml import etree headers = { "User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 S...原创 2019-08-21 14:00:01 · 438 阅读 · 0 评论