形式 最近数据科学导论的作业要用DataFrame,不会用,很头疼,所以就一边查一边记一下。
1、 获取yelp_dataframe列名叫做’stars’的那一列值为i的那些条数据,最后形成的是一个包含符合要求值的dataframe
yelp_dataframe[yelp_dataframe['stars'] == i ]
2、index.tolist()得到符合要求的某些行元素所在的位置,得到的是一个索引列表
yelp_dataframe[yelp_dataframe['stars'] ==i].index.tolist()
比如这样 [23, 31, 35, 61, 64, 65]
3、基本选择行、列、某行某列的值
iloc是选择DataFrame第几行第几列(类似于数组,数值下标从0开始)
获取某一列: 直接df [‘key’]
获取某一列: loc[‘key’]
某行某列,df.iloc[],二维,先行后列
df.iloc[3:5,0:2]
df.iloc[1:3,:]
df.iat[1,1]
4、插入、删除某列元素
5、统计分析
以下摘自:https://blog.youkuaiyun.com/u014662865/article/details/59058039
np.random.seed(1234)
d1 = pd.Series(2*np.random.normal(size = 100)+3)
d2 = np.random.f(2,4,size = 100)
d3 = np.random.randint(1,100,size = 100)
d1.count() #非空元素计算
d1.min() #最小值
d1.max() #最大值
d1.idxmin() #最小值的位置,类似于R中的which.min函数
d1.idxmax() #最大值的位置,类似于R中的which.max函数
d1.quantile(0.1) #10%分位数
d1.sum() #求和
d1.mean() #均值
d1.median() #中位数
d1.mode() #众数
d1.var() #方差
d1.std() #标准差
d1.mad() #平均绝对偏差
d1.skew() #偏度
d1.kurt() #峰度
d1.describe() #一次性输出多个描述性统计指标
参考
https://blog.youkuaiyun.com/u014662865/article/details/59058039
https://blog.youkuaiyun.com/qq_16234613/article/details/64217337