
机器学习
文章平均质量分 74
moluchase
代码是程序员的朋友,虽然没有热情,但是非常忠实。
展开
-
Titanic问题学习
我的第一篇写机器学习的博客目前水平:只是花了三个星期把统计学习方法看完推导了一遍目的:仅仅是想着熟悉一下统计学习方法中算法的用处,了解机器学习的一些比赛,更好的明白学习的方向结果:熟悉了数据的处理与分析流程,如何分离特征,但是关于调参数及优化这块没学习到感想:理论和实践还是差距很大的,明显自己完成这些比赛还需要一些过渡,否则很难往前走;需要看机器学习的一些实战的书kaggle官原创 2017-07-02 20:26:28 · 396 阅读 · 0 评论 -
线性回归 最小二乘法 方差
线性回归定义: 在上一个主题中,也是一个与回归相关的,不过上一节更侧重于梯度这个概念,这一节更侧重于回归本身与偏差和方差的概念。 回归最简单的定义是,给出一个点集D,用一个函数去拟合这个点集,并且使得点集与拟合函数间的误差最小。 上图所示,给出一个点集(x,y), 需要用一个函数去拟合这个点集,蓝色的点是点集中的点,而红色的曲线是函数的曲线,第一转载 2017-11-25 14:35:49 · 12893 阅读 · 0 评论 -
关于np.newaxis的一点理解
经常在sklearn上看到np.newaxis,这里记录一下我的理解np.arange(0, 10)这句话 生成的是一个一维的数组,如下:[0 1 2 3 4 5 6 7 8 9]输出其shape:(10,)那么我如何才能将其转化为shape=(1,10)呢可以用两种方法:1.使用shapey=np.arange(1, 11)y.shape=(10,1)prin原创 2017-11-23 22:29:28 · 38274 阅读 · 5 评论 -
主成分分析(PCA)原理及推导
转载:http://blog.youkuaiyun.com/zhongkejingwang/article/details/42264479什么是PCA? 在数据挖掘或者图像处理等领域经常会用到主成分分析,这样做的好处是使要分析的数据的维度降低了,但是数据的主要信息还能保留下来,并且,这些变换后的维两两不相关!至于为什么?那就接着往下看。在本文中,将会很详细的解答这些问题:PCA、S转载 2017-10-26 15:02:27 · 3197 阅读 · 0 评论 -
统计学习方法——CART, Bagging, Random Forest, Boosting
转载:http://blog.youkuaiyun.com/abcjennifer/article/details/8164315本文从统计学角度讲解了CART(Classification And Regression Tree), Bagging(bootstrap aggregation), Random Forest Boosting四种分类器的特点与分类方法,参考材料为密歇根大学Ji转载 2017-10-24 19:34:58 · 365 阅读 · 0 评论 -
总结:Bias(偏差),Error(误差),Variance(方差)及CV(交叉验证)
转载:http://blog.youkuaiyun.com/MrLevo520/article/details/53128297前言此片有很多别人的东西,直接搬过来了,都有注释,里面也有一些自己的理解和需要注意的地方,以此记录一下,总结如下,思想不够成熟,以后再补充,如有错误请不吝指正犀利的开头在机器学习中,我们用训练数据集去训练(学习)一个model(模型),转载 2017-10-24 19:05:55 · 1745 阅读 · 0 评论 -
正则化方法:L1和L2 regularization、数据集扩增、dropout
转载:http://blog.youkuaiyun.com/u012162613/article/details/44261657本文是《Neural networks and deep learning》概览 中第三章的一部分,讲机器学习/深度学习算法中常用的正则化方法。(本文会不断补充)正则化方法:防止过拟合,提高泛化能力在训练数据不够多时,或者overtraining转载 2017-11-09 21:34:42 · 492 阅读 · 0 评论 -
偏差与方差,欠拟合与过拟合
转载:http://blog.youkuaiyun.com/hurry0808/article/details/78148756机器学习的核心在于使用学习算法建立模型,对已建立模型的质量的评价方法和指标不少,本文以准确率(也称为精度)或判定系数(Coefficient of Determination)作为性能指标对模型的偏差与方差、欠拟合与过拟合概念进行探讨。偏差、方差、欠拟合、过拟合均转载 2017-10-24 15:33:34 · 1543 阅读 · 0 评论 -
在mac上安装Xgboost Python库
转载:http://blog.youkuaiyun.com/u014365862/article/details/73739857最近在mac上用到xgboost库,安装时遇到颇多大坑,网上查了很多答案几乎都是win上的问题,没遇到理想的,自己也就摸着石头把几个大坑给填了,总结一下,给后人少走点弯路。1.错误倘若直接 pip install xgboost时,会出现Command转载 2017-10-31 10:39:25 · 446 阅读 · 0 评论 -
先别管那些算法了,从实战中开始大数据机器学习(一)
转载:http://www.cnblogs.com/senlinmu/articles/7086382.html概述我从去年8月份开始接触机器学习。简单的讲下我的这段经历:首先是斯坦福大学的吴恩达的机器学习;学会了一些原理,但在学习的过程中不断触碰到微积分,而微积分的相关知识早已全部忘记,然后转头去学习微积分。微积分看的是麻省理工的Gilbert转载 2017-10-21 15:29:09 · 710 阅读 · 0 评论 -
Comprehensive learning path – Data Science in Python
转载:https://www.analyticsvidhya.com/learning-paths-data-science-business-analytics-business-intelligence-big-data/learning-path-data-science-python/Journey from a Python noob to a Kaggler on转载 2017-10-19 20:38:50 · 427 阅读 · 0 评论 -
关于ROC和AUE
什么是AUEAUC是指 随机给定一个正样本和一个负样本,分类器输出的正样本的概率 比 分类器出去负样本的概率 大的可能性先参看下面两个回答:https://www.zhihu.com/question/39840928?from=profile_question_card李大猫讲关于什么是AUE部分下面这个比较好理解:作者:无涯链接:https://ww转载 2017-10-19 16:46:51 · 1224 阅读 · 0 评论 -
GBDT 入门教程之原理、所解决的问题、应用场景讲解
转载:https://toutiao.io/posts/u52t61/previewGBDT (Gradient Boosting Decision Tree) 又叫 MART (Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力(gener转载 2017-09-27 11:34:40 · 11818 阅读 · 2 评论 -
机器学习实战笔记4
第七章 AdaBoostadaBoost算法见统计学习方法P138下面讲一下机器学习实战中的代码:首先是求出当层最小误分率,这里用到的是决策树生成函数(其实统计学习方法中一直不明白到底是怎么获取基本分类器的,而且给出的例子维度还是1维的,应该说是就没看懂AdaBoost)训练集如下矩阵所示: ⎡⎣⎢⎢⎢⎢⎢x(1)1x(1)2.x(1)Nx(2)1x(2)2.x(2)N............x原创 2017-08-15 20:41:51 · 380 阅读 · 0 评论 -
机器学习实战笔记3
第6章 SVM支持向量机是一种二分类模型,其基本模型是定义在特征空间上间隔最大的线性分类器,间隔最大使它有别于感知机;其核技巧使其成为非线性分类器函数间隔:定义超平面(w,b)关于样本点(xi,yi)(x_{i},y_{i})的函数间隔为γi^=yi(w∗xi+b)\hat{\gamma_{i}}=y_{i}(w*x_{i}+b)几何间隔:可以理解成点到面的距离,不会因为w,b的集体变化而变化(w,原创 2017-08-15 20:39:35 · 311 阅读 · 0 评论 -
机器学习实战笔记2
第5章 Logistic回归原理【实质和感知机有点像】———————-补充:感知机————————-定义给定一个数据集:T={(x1,y1),(x2,y2),…,(xN,yN)}T=\left\{{(x_{1},y_{1}),(x_{2},y_{2}),…,(x_{N},y_{N})}\right\} , 其中xiϵRn,yiϵ{+1,−1},i=1,2,…Nx_{i}\epsilon R^{n}原创 2017-08-15 20:36:41 · 421 阅读 · 0 评论 -
机器学习实战笔记1
机器学习实战&统计学习方法前两部分主要讨论监督学习(只需要给定输入样本集,机器就可以从中推演出指定目标变量的可能结果)第一部分 分类目标变量(也叫类别):一般为标称型(在限定的目标集中取值,离散有限型,一般是分类算法)和数值型(无限的数值集合中取值,连续型,一般是回归算法) 特征:属性第1章机器学习基础机器学习的主要任务监督学习:分类,回归。[k-近邻,朴素贝斯,svm,决策树,等] 无监督学习原创 2017-08-15 11:37:46 · 557 阅读 · 0 评论 -
mac安装LightGBM with Anaconda
网上很多安装教程有误,或者是太老???不如直接看官网教程参考官网 https://github.com/Microsoft/LightGBM/blob/master/docs/Installation-Guide.rst#osx https://github.com/Microsoft/LightGBM/tree/master/python-packageL原创 2017-11-25 08:47:06 · 6185 阅读 · 4 评论