
机器学习/深度学习算法
菜鸡的自我拯救
菜,无止境
展开
-
特征选择
从给定的特征集合中选择出相关特征子集的过程,称为特征选择。它是”数据预处理“中重要的一步。scikit-learn 机器学习库提供了两种不同的特征选择方法:RFE和决策树。 1、为什么要进行特征选择? 1) 解决维度灾难的问题,降低运算量,使模型泛化能力更强,减少过拟合 缩短模型训练时间。减少数据,意味着算法训练更快。减少冗余数据,意味着根据噪声做出决策的机会更少。 特征选择与降维处理是处理高维数...原创 2019-07-28 16:43:08 · 962 阅读 · 0 评论 -
Decision Tree
我对决策树特别感兴趣,感觉这个模型很有魅力。我曾经是一位彻头彻尾的功利主义者(现在也部分是),而我认为决策树的判别准则正是反映出了某种功利主义思想:要不要这么分,用是否有利于最大信息增益来判。 0)概述 决策树模型是很多集成模型的基础单元。 比较流行的决策树就是ID3、C4.5和CART,三者的区别主要在于损失函数不同。 1)基本概念 决策树最基本的概念就是信息增益,这种想法来自于信息熵: ...原创 2019-07-28 16:23:42 · 175 阅读 · 0 评论 -
机器学习/深度学习算法
从现在开始从博客中总结自己学习的算法,梳理思路,加深理解,且希望对他人也能有所帮助。打算有以下一些文章: (一) 监督学习 单一模型 1、 KNN 2、Naive Bayes 3、Logistic Regression 4、SVM 5、Decision Tree (二)监督学习 集成学习模型 1、Random Forest 2、AdaBoost 3、GBDT 4、XGBoost 5、LightGB...原创 2019-07-28 15:58:46 · 248 阅读 · 0 评论 -
KNN算法:找啊找啊找朋友
如何找朋友 KNN是昨天才刚刚接触到的算法,是一种十分基础的非监督分类算法。 个人认为它的概念最为生动的阐述就是:寻找邻居、投票计数: 想像训练集中的数据构成了一个超大的社会,其中又包含很多很多有“人以类聚”的社区。突然有一天,一个新人(测试数据)打算移民到这个社会中,为了最快地适应到这个社会中,他要做的第一件事就是选择最适合自己社区去定居。最简单的办法就是: 首先,他与社会中的每一个人都接触、...原创 2019-03-31 14:09:43 · 583 阅读 · 0 评论 -
Adaboost
sklaern中Adboost分类默认的弱分类器是决策树,其他参数详解见本文。 Adaboost回归默认的若分类器是CART数,见本文。原创 2019-08-03 21:28:52 · 229 阅读 · 0 评论 -
sklearn 聚类自定义距离度量
来自这篇博文原创 2019-07-31 11:07:19 · 6459 阅读 · 1 评论 -
聚类
我最喜欢的一部分!原创 2019-07-29 23:44:02 · 229 阅读 · 0 评论 -
降维与度量学习
首先是维度灾难的定义: 维度灾难:在高维情形下出现的数据样本稀疏、距离计算困难等问题 1)低维嵌入 2)PCA 3)核化线性降维 4)流行学习 5)度量学习 ...原创 2019-07-29 23:29:58 · 167 阅读 · 0 评论 -
彻底搞懂正则化
花了一些时间理解了正则化原创 2019-07-29 23:22:29 · 302 阅读 · 0 评论 -
sklearn的feature_importances_含义是什么?
参考这篇回答: https://stackoverflow.com/questions/15810339/how-are-feature-importances-in-randomforestclassifier-determined/15821880#15821880 其中有Sk-learn作者的回复: There are indeed several ways to get feature “...原创 2019-08-31 13:16:57 · 16689 阅读 · 1 评论