
机器学习
catEyesL
渣硕在读,数据挖掘NLP爱好者గ .̫ గ
数据挖掘比赛入门选手,目前5次狗进top10
展开
-
降维:降维方法总结及部分python实现
不仅仅是大量数据处理冗余需要降维技术,在特征选择的时候往往也会用到降维技术(比如在预测用户行为的时候可能根据相关性剔除一些特征),它可能会对模型带来不稳定的提升(针对具体数据集),节选一篇介绍降维技术的方便总结整理。什么是降维?我们每天都在生成大量的数据。事实上,世界上90%的数据都是在过去的3到4年中产生的!这些数字真的令人难以置信。以下是收集的数据的一些例子:Facebook会收集...原创 2020-03-04 20:36:38 · 1513 阅读 · 0 评论 -
初步理解正则化与L1 ,L2范数
在线性回归的问题中就出现了一个后面学习也常用的概念正则化,这里对它进行一个简单总结。统计学习方法中描述到模型选择的典型方法是正则化,正则化是结构风险最小化策略的实现,是在经验风险上加一个正则化项或罚项。正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大,比如,正则化项可以是模型参数向量的范数。范数的定义为:假设x是一个向量,则它的Lp范数为: 正则化一般...原创 2019-07-24 16:17:40 · 414 阅读 · 0 评论 -
Friedman检验和Nemenyi检验,测试以及python实现
为了将不同的学习算法的泛化性能进行全面的比较,光靠学习器对某个数据集上的性度度量是不够的,我们需要用到假设检验,它为我们进行学习算法的比较提供了重要依据。同时对于学习算法的比较,我们一般需要在多个数据集上比较多个算法的性能,这里常常采用Friedman检验和Nemenyi检验来进行比较。1.Friedman检验对于k个算法和N个数据集,首先得到每个算法在每个数据集上的测试性能结果,然后...原创 2019-08-06 21:11:22 · 20664 阅读 · 26 评论 -
线性回归、岭回归、lasso回归、弹性网络回归算法,附带python实现
线性回归算法简介线性回归,就是利用数理统计中的回归分析,来确定两种或两种以上变量间,相互依赖的定量关系的一种统计分析方法。线性回归试图学得:求解w和b的关键在于衡量f(xi)与yi之间的差别.由于均方误差是回归任务中最常用的性能度量,因此可以试图让均方误差最小化:求解它可以利用最小二乘法和梯度下降方法等:最小二乘法:对于多元回归,我们一般吧w和b一起写成向量形式...原创 2019-10-08 20:58:31 · 7660 阅读 · 8 评论