
Kaggle学习之旅
文章平均质量分 89
rose~Fxl
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Python手写了 35 种可解释的特征工程方法-案例分析
self.data = data # 包含基础变量的数据self.feature_list = feature_list # 变量名前缀self.p_list = p_list # 变量名前缀self.df = pd.DataFrame([]) # 用于收集最终变量的数据框self.core_num = core_num # 35个函数对应35个核self作为第一个参数,是实例对象本身data是传入的数据集feature_list是需要进行处理的特征集p_list是需要聚合的月份集。...原创 2022-08-09 13:47:13 · 678 阅读 · 0 评论 -
Python手写了 35 种可解释的特征工程方法
通过无差别聚合方法进行聚合得到的结果,通常具有较高的共线性,其所具备的信息量并无明显增加,反而会为广义线性模型带来干扰,影响模型的鲁棒性和稳定性。因此通常时间窗口为1年的场景下,p值会通过先验知识,人为选择3、6、12等,而不是遍历全部取值1~12。实际业务中,许多数时候数据源和建模目标都是确定的,这时候特征工程几乎就决定了最终模型的业务效果。用于预测的特征的原始变量,必须是在模型开发样本和将来模型实施时均可观察到的信息。将每个样本的变量通过各种运算,将单个特征的多个时间节点取值进行聚合的操作。...原创 2022-08-09 10:08:00 · 257 阅读 · 0 评论 -
特征工程衍生技术
对既有数据信息的重新排布。需要知道的是,特征衍生本身不是去创造更多信息,而是借助现有的数据去组合出一些新的数据,进而提高建模效果。1、四大类、26种特征衍生方法2、双变量及多变量特征衍生策略3、二阶及高阶特征衍生技巧4、时序和NLP特征的衍生方法在单变量多项式衍生的基础上增加交叉项的计算,如二阶多项式衍生特征除一次方,二次方以外还有衍生出的任意两个变量相乘。.........原创 2022-09-15 19:30:13 · 1421 阅读 · 0 评论 -
kaggle篇章三,新手入门糖尿病检测
kaggle篇章三,新手入门糖尿病检测原创 2022-07-22 18:44:43 · 1678 阅读 · 4 评论 -
kaggle篇章二,新手入门泰坦尼克号的幸存者预测实验的超详细全过程记录
算是基本跑完一遍泰坦尼克号幸存者预测的代码了原创 2022-07-18 21:57:15 · 986 阅读 · 0 评论 -
泰坦尼克号幸存者预测所用函数
泰坦尼克号幸存者预测所用函数原创 2022-07-18 21:58:23 · 386 阅读 · 0 评论 -
kaggle篇章一,不知道怎么下载Anaconda,Pytorch和Pycharm?如何自学python?没有人机验证?一直出现“unknown error”?
这是一整套的攻略,收集了我在kaggle这条路上遇到的问题,包括下载Anaconda,Pytorch和Pycharm,学习python,注册时没有人机验证,验证码一直出现“unknown error”,以及泰坦尼克号幸存者预测的问题。...原创 2022-07-16 23:37:24 · 1279 阅读 · 2 评论