
pandas
elibneh
这个作者很懒,什么都没留下…
展开
-
pandas根据条件赋值
pandas根据条件赋值:常用条件,多条件并行、是否相等、字符串是否包含、是否为nan等。原创 2022-01-24 19:46:54 · 8623 阅读 · 0 评论 -
pandas数据处理函数汇总
获取unique_values:pd.unique(data['col']) 建立透视表格:data.pivot_table(index='date',columns='group_id',values='rate') 排序:data.sort_values(by = ['date', 'group_id']) 分组统计:data[['rate', 'group_id', 'date']].groupby(['group_id']).mean() 筛选样本:data[(data['date'] ..原创 2021-01-26 15:42:28 · 695 阅读 · 0 评论 -
特征处理:least frequent value 代码实现
训练集df_train, 测试集df_test离散型特征集cat_features = [a, b, c, d, e, f, g]策略:"unseen labels": df_test里的未见的离散型特征的value值请取代成 df_train里相同特征里的最不常见的值 least frequent value代码实现:import pandas as pdimport numpy as npdf_train = pd.DataFrame([['a', 'b', 'a', 'a',原创 2020-07-18 15:30:07 · 183 阅读 · 0 评论 -
python pandas VS numpy
两个包都有类似的数据分析工具,但是就细节上有时候也有差别。所以在切换时候需要注意。两个包的函数methods在np.nan的处理上有区别。如果是np的methods,比如我们要计算标准差,如果array里面有nan缺失值,那么返回的是nan。但是如果我们是对于dataFrame求标准差,如果有nan,返回的是去掉nan之后序列中其他数字的标准差。std函数本身也有一个差异:np.std里面有一个参...原创 2018-03-14 10:38:54 · 584 阅读 · 0 评论 -
python(pandas)分为点,多个分为点
分为点的函数是pandas中的quantile。如果dataframe的名字是df,那么df.quantile?就可以看到函数的解释。如果后面是一个数字,就是一个分为点;如果要多个分为点,那么要加入一个array。 # 假设df是dataframe名字df.quantile(0.5)#df各个列的中位数数据df.quantile([0,25,0.5,0.75])#...原创 2018-12-26 17:47:07 · 2016 阅读 · 1 评论 -
python排序、得出序号各类方法大全 numpy pandas
整理了一下一行数据的排序和得出序号的各类方法,包括正序和倒序。当然还有pandas包的sort_value和sort_index两个method没有包含在这里。如果是多维的数据,需要将axis=0或者1包含进去。import numpy as npimport pandas as pd# ================================================...原创 2019-01-09 11:28:25 · 19199 阅读 · 1 评论