- 博客(8)
- 收藏
- 关注
原创 简单爬虫+pyecharts分析前途无忧招聘职位数量
爬虫+pyecharts分析前途无忧招聘职位数量关于pyecharts的安装与使用可参考:http://pyecharts.org/#/zh-cn/intro代码如下from pyecharts.charts import Barfrom pyecharts import options as optsimport requestsfrom urllib import parseim...
2020-04-11 18:55:49
476
原创 利用Scrapy框架爬取前途无忧招聘信息
利用Scrapy框架爬取前途无忧招聘信息关于安装和命令使用可参考:https://docs.scrapy.org/en/1.7/intro/install.html先创建项目和爬虫文件分析网站发现输入搜索内容跟url链接保持一致,且更换页数后的数字也跟url链接有关系(看url链接红线标识)这样我们就可以通过修改url来选择性爬取所有页面的招聘信息继续分析这里直接显示了所有职位...
2020-04-11 14:32:20
740
原创 爬虫之爬取车票信息
使用charles抓包软件,抓取手机APP全国汽车票的数据并实现查找车票的功能关于charles使用可以参考https://blog.youkuaiyun.com/smalCat/article/details/79817398手机和电脑配置好charles后,打开APP全国汽车票软件即可在charles看到抓包的数据在APP在上搜索车票信息时,发现多出一个链接(这里面很可能就有我们想要的车票信息)...
2019-12-25 13:01:34
1306
1
原创 爬虫之爬取知乎热榜
使用BeautifulSoup库爬取知乎热榜由于知乎有反爬机制,所以这里我们用到随机头部,代码如下import requestsfrom bs4 import BeautifulSoupimport lxmlimport randomurl = 'https://www.zhihu.com/billboard'agent_list = [ "Mozilla/5.0 (iPh...
2019-12-23 14:25:05
1995
1
原创 爬虫之登录清空淘宝购物车
1.本次是使用selenium库模拟浏览器登录并清空购物车关于selenium库的使用可参考:https://cuiqingcai.com/2599.html2.代码如下:from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support.ui i...
2019-12-16 12:08:16
676
原创 爬虫之爬取贴吧壁纸
利用BeautifulSoup库爬取贴吧壁纸保存到本地首先分析网页,发现每换一页URL的pn都会跟着变动,那我们只要修改pn的值就可以爬取全部的页面接着分析,发现红圈的div包括了此页面的所有信息,图片也是在这下面。整理一下信息,我们可以先爬取红圈里的信息然后通过遍历把所有页面的图片都拿出来。代码如下from bs4 import BeautifulSoupimport reques...
2019-12-06 20:30:41
275
原创 爬虫之Cookie登录(一)
利用Cookie登录人人网首先登录人人网,然后分析主页(cooike要自己先登录后才能找到)把cookie复制下来,代码如下import requestsfrom lxml import etreecookie = "anonymid=k1ouz2kn4ykh9u; _r01_=1; jebe_key=7ed442f9-b646-4f95-9539-ada0c0936bea%7C1...
2019-12-06 13:35:59
323
原创 爬虫之爬取豆瓣排行榜
首先我们先分析一下页面https://movie.douban.com/typerank?type_name=%E5%89%A7%E6%83%85&type=11&interval_id=100:90&action=可以看到这个链接并没有我们想要的信息,所以接着往下找直到找到这个链接,这个里面才有我们想要的信https://movie.douban.com/j/ch...
2019-12-05 23:38:56
825
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人