百度大数据比赛
sklearn是机器学习中一个常用的python第三方模块,网址:http://scikit-learn.org/stable/index.html ,里面对一些常用的机器学习方法进行了封装,在进行机器学习任务时,并不需要每个人都实现所有的算法,只需要简单的调用sklearn里的模块就可以实现大多数机器学习任务。
机器学习任务通常包括分类(Classification)和回归(Regression),常用的分类器包括SVM、KNN、贝叶斯、线性回归、逻辑回归、决策树、随机森林、xgboost、GBDT、boosting、神经网络NN。
常见的降维方法包括TF-IDF、主题模型LDA、主成分分析PCA等等
sk快速使用:https://www.cnblogs.com/lianyingteng/p/7811126.html
报错:ImportError: No module named 'sklearn.model_selection'
答案:是scikit-learn的版本太低
https://blog.youkuaiyun.com/jinlong_xu/article/details/72862047
(里面包括anaconda添加清华源)
在anaconda中通过命令行查看sklearn的版本为 0.17.1,而 sklearn.model_selection 是 sklearn 版本 0.18.1 以上的。那么我升级一下 scikit-learn 应该就可以了。
报错:UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb2 in position 4: invalid start byte
答案:拿n