以house price为例
1. Train_df.head(n)
通过查看表格头部几行元素来观察数据的大致组成。
2. prices = pd.DataFrame({“price”:train_df[“SalePrice”],”log(price+1)”:np.log1p(train_df[“SalePrice”])})
Prices.hist()
price即数据的label本身不是平滑的,通常为了分类器学习的准确性,会首先把label“平滑化”,即呈现正态分布。在这里通常使用log1p,即log(x+1),避免了负值的问题。
最后也要把预测的平滑数据给变