
爬虫
文章平均质量分 62
&黄焖鸡米饭&
一个正在自学游戏开发的苦逼打工人
展开
-
猎聘网岗位数据分析实践
猎聘网岗位数据分析模型说在前面项目背景交叉分析法八象限法八象限法的经典应用-RFM法明确目的初始化环境引入数据分析python库设置绘图中文支持排除警告读取数据数据的预处理缺失值处理重复项检查数据重新定序数据的数值化薪资学历要求工作年限经过处理后的数据八象限法分析八象限法各种工作类别成员筛选可视化展示柱形图饼图树地图数据可视化城市和区分开全国数据分析平均年薪和各市平均年薪找出平均年限top10城市柱形图全国岗位数量排名前10的城市柱形图气泡图学历高低与岗位数量的关系柱形图气泡图工作年限与岗位数量的关系柱形图原创 2021-02-28 14:28:01 · 2525 阅读 · 9 评论 -
项目五:获取数据:京东
爬取京东直接上代码点击跳转总目录直接上代码此项目主要为了学习RFM模型,R(近度)F(频度)M(额度),我把目标盯上了淘宝,京东这种购物网站,但是水平太菜,于是退而其次打算爬取当当网试试前几天学了selenium,参考了网上的代码写了这个爬虫写了这个爬虫之后发现获取到的数据仍然并不理想,故放弃import timefrom selenium import webdriverfrom lxml import etreeimport urllibimport csvimport pan原创 2021-02-27 19:15:08 · 382 阅读 · 2 评论 -
项目五:获取数据:当当网
爬取当当网直接上代码点击跳转到总目录直接上代码此项目主要为了学习RFM模型,R(近度)F(频度)M(额度),我把目标盯上了淘宝,京东这种购物网站,但是水平太菜,于是退而其次打算爬取当当网试试参考写了这个爬虫之后发现获取到的数据并不理想,故放弃import requestsfrom lxml import etreeimport pandas as pdtest_url = 'http://search.dangdang.com/?key='+ '数据分析'content_page =原创 2021-02-27 19:09:42 · 248 阅读 · 0 评论 -
项目四:数据获取:合并excel
合并excel直接上代码点击跳转到总目录本篇只记录程序点击跳转项目直接上代码可以自动合并一个文件夹下所有xlsx,亲测可用# 下面这些变量需要您根据自己的具体情况选择# ['岗位名称','公司全名','备注','薪资','年薪','工作地点','学历要求','工作年限']import osimport pandas as pdimport xlrd# 注意这里的 xlsx 文件内容不同(如果相同的话合并干嘛) 但格式是一样的# 每个文件一个只有 sheet1 有内容 其他地方空原创 2021-02-27 18:47:53 · 243 阅读 · 2 评论 -
项目四:数据获取:拉勾网
爬取拉勾网直接上代码点击跳转到总目录本篇只记录程序点击跳转项目直接上代码用selenium参考网上大神们做的from selenium import webdriverimport timeimport loggingimport randomimport openpyxlwb = openpyxl.Workbook() # 创建工作薄对象sheet = wb.active # 获取活动的工作表# 添加列名sheet.append(['job_name'原创 2021-02-27 18:37:00 · 601 阅读 · 1 评论 -
项目四:数据获取:猎聘网
爬取猎聘网项目背景爬取猎聘网代码(20张)改进爬取总结项目背景随着科技的飞速发展,数据呈现爆发式的增长,任何人都摆脱不了与数据打交道,社会对于“数据分析”方面的人才需求也在不断增大。因此了解当下企业究竟需要招聘什么样的数据分析人才?需要什么样的技能?不管是对于在校生,还是对于求职者来说,都显得很有必要但是谁知获取数据部分就给了我当头一棒首先我盯上了猎聘网(以前练习爬虫时爬过)爬取猎聘网代码(20张)from makerbean import web_crawler_bot as原创 2021-02-27 18:29:42 · 1423 阅读 · 0 评论