以前不知道Kaggle这个平台的存在,偶然发现后,发现真是一个非常好的数据平台,
它在大数据的地位相当于leetcode在在线编程上的地位。
最开始的Kaggle从一个博客开始:http://blog.youkuaiyun.com/han_xiaoyang/article/details/49797143
这篇文章从一个基本问题出发,讲解了算法从设计到比较完善的一个总流程,
对新手来说帮助非常大。
————————————————————————————————————————
总的来说在数据平台上解决一个问题分为两步:
一 对数据进行处理(主要方面)
二 用机器学习算法对数据进行训练及预测
自己也实现了一下上面博客里面的算法,只是在第二步里用tensorflow自己实现了一个复杂点
的回归模型,结果发现虽然自己实现的回归模型变复杂了,但结果却没有提升太多,模型还有
很多改进的地方,有许多参数需要调节。
再接再厉,多练习,多练习,多练习!!!!
————————————————————————————————————————
有一堆数据,进行分析的一个好的流程:
1.用pandas中的dataframe的corr()方法求相关系数,得到一些关键的特征
2.用sklearn中tree的决策树方法得到关键的决策性特征
3.用这些关键的决策性特征作为特征数据输入到判别器(logistic回归,DNN,随机森林等)
4.得到各个特征的重要性系数,代入进行判定
参考关于员工离职预测的kernel:https://www.kaggle.com/randylaosat/predicting-employee-kernelover
————————————————————————————————————————
随机森林算法:
用原有数据通过放回抽样的方式进行多次采样得到几组训练数据,分别用这些训练数据以及随机选取的特征训练不同的
决策树或者Logistic回归器。输入一个新样本时,将这些所有小决策树或Logistic的结果中出现最多的作为判定结果。