- 注意这些都必须是在pandas中的
DataFrame使用
- 第一个:value_counts()
Series.
value_counts
(normalize=False, sort=True, ascending=False, bins=None, dropna=True)
Returns object containing counts of unique values.
简单地说:看看数据中有哪些不同的值,并计算每个值有多少个重复值
- 第二个:iloc()
切分数据
比如: label=y_train.iloc[0] 上式的作用切分y_train中第一行的数据给label.
label=y_train.iloc[:,-1] 把y_train中数据最后一列给label
- 第三个 sort_values()
DataFrame.sort_values
(by, axis=0, ascending=True, inplace=False, kind='quicksort', na_position='last')
>>> df = pd.DataFrame({
... 'col1' : ['A', 'A', 'B', np.nan, 'D', 'C'],
... 'col2' : [2, 1, 9, 8, 7, 4],
... 'col3': [0, 1, 9, 4, 2, 3],
... })
>>> df
col1 col2 col3
0 A 2 0
1 A 1 1
2 B 9 9
3 NaN 8 4
4 D 7 2
5 C 4 3
>>> df.sort_values(by='col1', ascending=False) # 根据col1来下降排序
col1 col2 col3
4 D 7 2
5 C 4 3
2 B 9 9
0 A 2 0
1 A 1 1
3 NaN 8 4
第四个:index
第五个:loc()
selection by label(根据标签删除数据)
第六个:drop()
删掉某列某行数据