数据平台Kaggle入门

以前不知道Kaggle这个平台的存在,偶然发现后,发现真是一个非常好的数据平台,

它在大数据的地位相当于leetcode在在线编程上的地位。

最开始的Kaggle从一个博客开始:http://blog.youkuaiyun.com/han_xiaoyang/article/details/49797143

这篇文章从一个基本问题出发,讲解了算法从设计到比较完善的一个总流程,

对新手来说帮助非常大。

————————————————————————————————————————

总的来说在数据平台上解决一个问题分为两步:

一  对数据进行处理(主要方面)

二  用机器学习算法对数据进行训练及预测

自己也实现了一下上面博客里面的算法,只是在第二步里用tensorflow自己实现了一个复杂点

的回归模型,结果发现虽然自己实现的回归模型变复杂了,但结果却没有提升太多,模型还有

很多改进的地方,有许多参数需要调节。

再接再厉,多练习,多练习,多练习!!!!

————————————————————————————————————————

有一堆数据,进行分析的一个好的流程:

1.用pandas中的dataframe的corr()方法求相关系数,得到一些关键的特征

2.用sklearn中tree的决策树方法得到关键的决策性特征

3.用这些关键的决策性特征作为特征数据输入到判别器(logistic回归,DNN,随机森林等)

4.得到各个特征的重要性系数,代入进行判定

参考关于员工离职预测的kernel:https://www.kaggle.com/randylaosat/predicting-employee-kernelover

————————————————————————————————————————

随机森林算法:

用原有数据通过放回抽样的方式进行多次采样得到几组训练数据,分别用这些训练数据以及随机选取的特征训练不同的

决策树或者Logistic回归器。输入一个新样本时,将这些所有小决策树或Logistic的结果中出现最多的作为判定结果。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值