
pandas
泛泛之素
君子不器
展开
-
SQL VS Pandas (2) : 区域排名
1. 题目一:区域第一不同城市薪水最高的岗位信息1.1 SQL1.1.1 子查询通过子查询找到不同城市的最高薪水,然后再通过where定位%%sqlSELECT *FROM jobsWHERE (city, salary_high)IN ( SELECT city, MAX(salary_high) FROM jobs GROUP BY c原创 2020-11-11 16:29:17 · 195 阅读 · 0 评论 -
SQL VS Pandas (1):Rank,Top n 和 连续个数
这是个一是使用系列,功能是训练SQL和Pandas的熟练度,同时用于比较一个问题用SQL和Pandas解决的方法,进而探究解决问题的刚好方法。1. 数据情况1.1 jupyter使用jupyter notebook进行SQL和pandas对数据的操作, 导入pandas和链接数据库:import pandas as pd%load_ext sql%sql mysql+pymysql://root:123zxc@localhost/testdb1.2 数据拉勾网上爬的职位信息的部分数据原创 2020-11-10 20:05:15 · 621 阅读 · 0 评论 -
pnadas 使用技巧汇总
pandas使用技巧,去重,replace,apply,插入,更换列名字等等原创 2017-12-31 16:54:11 · 2443 阅读 · 0 评论 -
小项目-数据处理篇:pandas进行工作相关数据清洗
1、去重工作地址,获取地址坐标(高德)2、去重公司,获取公司情况3、工作筛选,由于智联上爬取的工作,好多事工作内容里有python,只用python谢谢脚本啥的,实际标题上找的是java啊,php啊,这样的工作要删掉4、剔除数据异常值,过大过小,NA值5、工作根据,工作,公司情况,工作内容,技能要求等进行评分,目的是找到适合我的工作原创 2018-01-01 10:14:51 · 4375 阅读 · 6 评论 -
小项目-数据处理篇:租房信息整理,plotly实现数据可视化
租房信息可视化处理原创 2018-01-02 15:04:14 · 4746 阅读 · 4 评论 -
scikit-learn + pandas 决策树
学习过pytorch的神经网络,返回来看sklearn的机器算法感觉简单多了,只需要套用模型,fit一下,本篇结合sklearn 上的决策树算法和pandas数据预处理 对 经典的泰坦尼克获取数据集进行学习,探究获救因素。 例子来源:张良均《python与数据挖掘》数据处理原始数据下载:https://github.com/ffzs/ml_sklearn/tree/master/da原创 2018-01-22 15:03:01 · 5884 阅读 · 0 评论 -
python数据预处理: 字符变量独热编码(one-hot encoding)
许多的数据采样中会有很多以以字符串形式出现的数据,这样的数据没有办法直接跟其他数值变量合并成向量,这些值一般是分类数据或是顺序数据。分类数据:分类数据指某些数据类别的只能归于某一类非数值型数据,例如男、女。分类数据中的值没有明显高低好坏之分,只是由来区分两个或多个具有相同或相当价值的属性。顺序数据:顺序数据只能归于某一有序类别的非数值型数据,例如用户的价制度分为高、中、低。在顺序数据中,有明...原创 2018-11-19 22:55:29 · 9244 阅读 · 9 评论 -
python数据预处理: 使用pandas 进行数据清洗
问题:介绍数据清洗方法。。解答:所谓数据清洗主要处理的是数据中的缺失值、异常值和重复值:缺失值处理数据缺失值指由于各种原因导致数据中存在的空缺值:数据库中的null,python返回对象none,pandas或numpy中的nan;另空字符串是有实体的不算是缺失值,缺失值没有实体。处理数据缺失值一般有4中方法:丢弃补全真值转化不处理丢弃如果缺失的数据量不大,且对其丢弃对...原创 2018-11-17 16:33:58 · 5474 阅读 · 0 评论