
小项目
泛泛之素
君子不器
展开
-
小项目-数据爬取篇:scrapy框架,手机网页,工作信息存入MongoDB,代理ip中间件
准备工作首先安装scrapy框架:pip install scrapy还要用到mongodb,mongodb安装百度一下,网上很多。pip install pymongo这回我们要分析移动端的网页,需要使用使用火狐浏览器上的一个插件更改user-agent来模仿手机访问网页。 首先下载安装火狐浏览器; 然后,进入附加组件: 在扩展里搜索user agent switcher,第一个安装,使原创 2017-12-30 11:45:04 · 2584 阅读 · 0 评论 -
小项目-数据爬取篇:scrapy-redis,手机网页,房天下租房信息,分布式,代理ip
scrapy-redis,手机网页,房天下租房信息,分布式,代理ip原创 2017-12-31 11:42:31 · 3524 阅读 · 0 评论 -
小项目-数据处理篇:pandas进行工作相关数据清洗
1、去重工作地址,获取地址坐标(高德)2、去重公司,获取公司情况3、工作筛选,由于智联上爬取的工作,好多事工作内容里有python,只用python谢谢脚本啥的,实际标题上找的是java啊,php啊,这样的工作要删掉4、剔除数据异常值,过大过小,NA值5、工作根据,工作,公司情况,工作内容,技能要求等进行评分,目的是找到适合我的工作原创 2018-01-01 10:14:51 · 4375 阅读 · 6 评论 -
小项目-数据可视化:应用dash将工作信息呈现在地图上
应用dash将工作信息呈现在地图上原创 2018-01-02 09:54:29 · 6820 阅读 · 7 评论 -
小项目-数据处理篇:租房信息整理,plotly实现数据可视化
租房信息可视化处理原创 2018-01-02 15:04:14 · 4746 阅读 · 4 评论 -
小项目-开篇:为找工作而写
项目背景:辞职几个月在家专研python,已有小成,决定出去找工作,又苦于自己是半路出家的码农,没有什么项目经验,于是乎决定自己写个项目,这个为了找工作而写找工作项目应运而生。原创 2017-12-29 09:56:49 · 2519 阅读 · 5 评论 -
小项目-数据处理篇:真·租房信息整理,应用dash整合到地图上
接上一章内容: 经过了一下午的爬取,也算是终于搞到一份还算像样的数据: 经过去重还有8w3,可以玩耍了,重复原因有可能是因为,很多房源本身就发了很多回,就这8w3的数据应该也有重复,我们把title删除,再drop_duplicates一下: 还有7w多,这样的数据就比较真实了,数据到手,搞起:df["rent"] = df["rent"].apply(lambda x: x原创 2018-01-04 09:07:58 · 3614 阅读 · 9 评论 -
小项目-数据爬取篇:准备工作 代理ip爬取(分布式,多线程)
代理网站比较多,有免费的有收费的,我们爬取的数据并不多,用免费的就好,免费代理有个致命缺点就是少数可用,所以我们爬取下来以后最好还要验证一下,验证的逻辑就是访问正常网站,返回状态200的保留,否者删除就好。原创 2017-12-29 14:41:55 · 3881 阅读 · 0 评论 -
小项目-机器学习篇:租房价格影响因素探究
环境:win10 python 3.61数据准备:导入原始数据,结构如下: 对数据的处理要做一下3点:装修类型数据化层数数据化根据坐标求得与市中心距离装修类型数据化:def change_decoretion(x): if x == "豪华装修": x= 0.9 elif x == "精装修": x =原创 2018-01-05 10:11:31 · 4032 阅读 · 2 评论