pandas数据离散化
数据离散化,是将连续的数据,通过分割,形成离散化的数据。举个例子,比如有一列数据存储人的身高:165,174,160,180,159,163,192,184
,那么通过离散化可以变为:150~165, 165~180,180~195
。还有另外一种离散化的数据,就是通过one-hot
编码,下面会详细讲到。
切割数据离散化:
在pandas
中使用pd.qcut
或者是pd.cut
方法实现数据切割。
pd.qcut(data, q)
的函数意义为:
data
:需要被切割的数据。q
:需要切割多少个组。
示例代码如下:
df = pd.read_csv("data/stock_day.csv")
qcut = pd.qcut(df['p_change'], 6)
qcut.value_counts()
输出结果如下:
(-10.030999999999999, -4.836] 65
(-0.462, 0.26] 65
(0.26, 0.94] 65
(5.27, 10.03] 65
(-4.836, -2.444] 6