contest
owenbb
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
特征选择总结
当数据预处理完成后,我们需要选择有意义的特征输入机器学习的算法和模型进行训练。通常来说,从两个方面考虑来选择特征:特征是否发散:如果一个特征不发散,例如方差接近于0,也就是说样本在这个特征上基本上没有差异,这个特征对于样本的区分并没有什么用。特征与目标的相关性:这点比较显见,与目标相关性高的特征,应当优选选择。除方差法外,本文介绍的其他方法均从相关性考虑.根据特征选择的形式又可以将特...原创 2019-11-02 15:34:43 · 443 阅读 · 0 评论 -
箱型图
箱形图可以用来观察数据整体的分布情况,利用中位数,25/%分位数,75/%分位数,上边界,下边界等统计量来来描述数据的整体分布情况。通过计算这些统计量,生成一个箱体图,箱体包含了大部分的正常数据,而在箱体上边界和下边界之外的,就是异常数据。其中上下边界的计算公式如下:UpperLimit=Q3+1.5IQR=75%分位数+(75%分位数-25%分位数)*1.5,LowerLimit=Q...原创 2019-10-12 09:57:50 · 7483 阅读 · 0 评论 -
Science of Science 数据黑客松小总结
Science of Science 数据黑客松小总结原本以为没有时间搞了,官方说测试集出现问题了,延长到11号早上。所以10号晚上考完视觉计算,瞎搞了一下,发现和前排的大佬差距甚大。简单记录一下自己的方法,日后方便回忆。发现熬夜修仙真的不适合我,凌晨两点睡,第二天整个人废了,还是提高一下白天和晚上的效率吧赛题要求本次比赛任务是匹配科研论文和科研新闻。发布的数据包括论文和新闻的信息。训...原创 2019-06-12 11:34:23 · 383 阅读 · 0 评论 -
Home Credit Default Risk比赛记录
2018/7/121、decriptionHome Credict利用其他数据,包括电信和其他交易数据预测该客户的还款能力(概率)。2、evaluationROC曲线面积3、dataapplication.csv性别、汽车、孩子数量、收入、消费贷款商品的价格、贷款信用额、贷款年金、申请贷款陪伴的人、收入来源、学历、家庭状况、房子类型、居住地方的人口数量...原创 2018-07-14 15:46:58 · 2221 阅读 · 3 评论 -
比赛常用的操作
1、读取数据,有时候是txt有没有命名,转化dataframe中的时间为时间类型dir = '../data/'app_launch = pd.read_table(dir + 'app_launch_log.txt',engine='python', names=['user_id','day'])comment_score = pd.read_csv('../data/jdata...原创 2018-06-05 10:33:58 · 386 阅读 · 0 评论 -
Featuretools--深度特征合成 Deep Feature Synthesis原理
Deep Feature Synthesis: How Automated Feature Engineering Works理解DFS的3个重要概念:1、特征来源于数据集中数据之间的关系:DFS专注于数据库多表数据或者日志文件的事物数据。2、在数据集中,很多特征是通过使用类似的数学运算得出的:举个例子,对用户的购买数据,需要预测用户的最大购买金额。我们将收集与用户相关的所有交易,并找出最大购买金...原创 2018-05-27 21:51:53 · 4873 阅读 · 0 评论 -
盐城汽车上牌量预测资料链接
前十的代码和思路初赛排名34,复赛排名25原创 2018-03-12 09:36:55 · 739 阅读 · 6 评论 -
House Prices: Advanced Regression Techniques资料链接
Comprehensive data exploration with PythonA study on Regression applied to the Ames datasetRegularized Linear ModelsStacked Regressions : Top 4% on LeaderBoard原创 2018-03-11 17:04:55 · 642 阅读 · 0 评论 -
Ensemble几种方式原理
kaggle-ensembling guideblendnigstacking代码模型融合接口常见的 Ensemble 方法有这么几种:Bagging:使用训练数据的不同随机子集来训练每个 Base Model,最后进行每个 Base Model 权重相同的 Vote。也即 Random Forest 的原理。Boosting:迭代地训练 Base Model,每次根据上一个迭代中预测错误的情况修...转载 2018-03-12 10:07:47 · 10685 阅读 · 1 评论
分享