2017.07.27回顾 ET和RT比较高级切片 argsort barplot(yerr=) xgb.plot_importance

最新推荐文章于 2023-08-15 16:50:22 发布

原创最新推荐文章于 2023-08-15 16:50:22 发布 · 3.1k 阅读

1 ·

CC 4.0 BY-SA版权

日记同时被 2 个专栏收录

290 篇文章

订阅专栏

python

70 篇文章

订阅专栏

本文回顾了ExtraRandomizedTrees（ET）与RandomForest（RF）的区别，重点在于采样策略和结果整合方式。同时，介绍了Python中的高级切片操作，如逆序、步长选择等，并探讨了seaborn库中barplot的yerr参数用于展示误差条的效果。此外，还提及了matplotlib的xlim功能和XGBoost的变量重要性绘制功能。

1、一到办公室写了上一日的小结

2、昨天帮同事拉进白名单，就只能顺带更新了channel rolling variable，运行良好

3、看了下ExtraRandomizedTrees和randomForest的文档，随机森林是有放回的抽样，样本数等于原始样本数，特征数随机子集，结果回归用average，分类用voting（但是sklearn的实现是对probability的average），ExtraRandomizedTrees是用的全样本，默认不抽样，特征是子集，他的极限随机是体现在每个候选特征，是随机生成一个分裂值，然后选出最佳分化特征。GBDT有两个参数可以选择样本子集和特征子集，目的都是增加偏差来降低方差防止过拟合。当时GBDT的子树用的是CART树，分裂准则是GINI，随机森林和ET树我需要再看一下！

4、下午又是开会，反正都没什么收获了

5、python有一些切片方法，我并没有掌握，小结一下

a[::-1]逆向list
a[:10:2]取前10个元素，每2个取1个
a[::5]每5个元素取1个

6、numpy的argsort()其实见过很多次了，但是老是记不住，他是对一个array-like结构的元素下标进行排序，要特别记住的的地方就是对下标进行排序

7、然后新同事的任务中涉及到如何判断一个数是整数，因为有2.0这种形式，实际上还是整数，原来python数字都有一个内建方法，2.0.is_integer()

8、把阿三的风骚EDA是抄完了，最后两步就是用ET树和XGBOOST输出了一个feature_importance，其中xgboost提供了方法直接输出比较方便，ET树需要自己画图设置一些东西

9、sns.barplot或者plt.bar，有一个参数yerr是y error的简称，可以画出y的偏差，另外sns.barplot确实屌，自动配色，简直骚气

10、plt.xlim，xlim是x limit的简写，可以限定X轴的范围，其实没有多大必要，跟默认autoscaling的结果似乎没差

11、xgb内建画变量重要性

fig, ax = plt.subplots(figsize=(12,12))
#xgboost的内建画变量重要性的方法需要传axes对象
xgb.plot_importance(model, max_number_features=50, height=0.8, ax=ax)
plt.show()