
机器学习
小豆芽_
这个作者很懒,什么都没留下…
展开
-
机器学习_特征选择
1.特征选择:特征很多,但是只有部分特征与当前任务有关,所以要选出来啦2.剔除的特征:无关特征 冗余特征:冗余特征具有两面性,一方面去除他们会减轻学习负担,另一方面如果某个冗余特征恰好完成了学习任务的‘中间概念’,则有益。eg求体积。底面积相对长和宽为冗余3.子集搜索:【1】用先验知识来选择特征子集,可能没办法考虑周全【2】假原创 2017-10-03 10:35:33 · 347 阅读 · 0 评论 -
机器学习_互信息/条件熵/交叉熵/相对熵
我们在之前研究过两个随机变量的独立性,我们定义若两个随机变量X,YX,Y满足P(X,Y)=P(X)P(Y)P(X,Y)=P(X)P(Y) 则我们说随机变量X,YX,Y独立。下面来直观地理解这个公式,可以发现,如果X,YX,Y独立,那么已知XX,将不会对YY的分布产生任何影响,即是说P(Y)=P(Y|X)P(Y)=P(Y|X),这个结果的证明也很简单,由贝叶斯公式:P(Y|X)=P(X,Y...转载 2018-04-17 10:07:23 · 281 阅读 · 0 评论 -
机器学习_中心极限定理
1.内容:【1】大量相互独立的随机变量,其均值(或者和)的分布接近于正态分布。2.举例:【1】扔一个奇奇怪怪的骰子,六面分别为1.1.2.3.3.5.现在扔。先扔n次实验,每次扔6下。 比如说第一次1 1 1 1 1 1 那么第一次均值为1. 这n次实验的均值呈现正态分布,每次扔的越多,越会呈现正态分布3.应用【1】n次实验正态分布的均值和扔骰子这个随机过程的均值是一样的,也就是说...原创 2017-10-17 16:29:28 · 814 阅读 · 0 评论 -
机器学习_SVM综合帖
【1】SVM的综述:https://mp.weixin.qq.com/s/qVhRQr92gBkUjXGymkXGZw【2】关于SVM在大样本的改进,知乎回答陈义答的很好,备用。https://www.zhihu.com/question/19591450转载 2018-05-01 20:53:00 · 159 阅读 · 0 评论 -
机器学习_AUC评价指标
【1】https://blog.youkuaiyun.com/cherrylvlei/article/details/52958720 理解AUC的集合意义。【2】https://www.zhihu.com/question/39840928?from=profile_question_card AUC的一些应用吧。包括AUC直接训练...转载 2018-05-02 17:44:01 · 214 阅读 · 0 评论 -
机器学习_SVM_核函数的选择
【1】SVM核函数的选择1. 如果Feature的数量很大,跟样本数量差不多,这时候选用LR或者是Linear Kernel的SVM2. 如果Feature的数量比较小,样本数量一般,不算大也不算小,选用SVM+Gaussian Kernel3. 如果Feature的数量比较小,而样本数量很多,需要手工添加一些feature变成第一种情况。以上三种情况的理解:1.如果特征足够多,认为维度足够高,选...原创 2018-04-25 22:29:05 · 597 阅读 · 0 评论 -
机器学习_连续属性的离散化
【1】https://blog.youkuaiyun.com/Eaton18/article/details/52143616;这篇博客讲了离散化的一些常见方法。转载 2018-05-19 20:13:39 · 1828 阅读 · 0 评论 -
机器学习_基本术语:ASR
【1】ASR:Automatic Speech Recognition 语音识别原创 2018-07-23 10:59:25 · 425 阅读 · 0 评论 -
机器学习_TF-IDF
【1】本算法的目的是从文档中找出主题词,来对文档进行分类。见大数据书P6。【2】有点像文档的特征选取,选出文档中最具有代表性的词。【3】理解:第一:主题词确实会在文档中重复出现,但并不是最频繁的。(语气词、停顿词最频繁) 第二:一篇文档的主题词在其他文档中几乎不会出现。【4】所以挑选主题词,对词语在一篇文档的打分的公式为: ...原创 2017-11-17 10:30:06 · 215 阅读 · 0 评论 -
意图识别_Query特征提取
【1】背景/术语:Search_Session:用户与搜索引擎的一次完整的过程。信息包括:Query、Title、如果用户在Session期间变换了查询词,后续的搜索和点击均会被记录,直到脱离搜索。理解:一个样本即Query和点击的Title【2】Query的意图识别和传统的文本分类问题有如下区别:类别不完全互斥,即多标签。eg:极品飞车属于游戏、电影类 样本分布不均衡:一、类别方面不...原创 2018-08-16 11:21:12 · 3254 阅读 · 0 评论 -
机器学习_随机森林参数
【1】参数解释:https://www.cnblogs.com/gczr/p/7141712.html【2】http://blog.youkuaiyun.com/lulei1217/article/details/49583287转载 2018-03-13 21:49:06 · 416 阅读 · 0 评论 -
机器学习_互信息的理解
【1】.http://www.fuzihao.org/blog/2015/01/17/%E4%BA%92%E4%BF%A1%E6%81%AF%E7%9A%84%E7%90%86%E8%A7%A3/【2】原来我对X有些不确定(不确定性为H(X)),告诉我Y后我对X不确定性变为H(X|Y), 这个不确定性的减少量就是X,Y之间的互信息I(X;Y)=H(X)-H(X|Y)。...转载 2018-03-18 21:57:36 · 779 阅读 · 0 评论 -
机器学习_主成分分析
【1】http://blog.codinglabs.org/articles/pca-tutorial.html【2】一篇很好的介绍PCA的文章转载 2018-03-12 19:29:00 · 272 阅读 · 0 评论 -
机器学习_集成学习
1.理解什么是集成学习:所谓“集成”,是指同时构建多个学习器,这里的学习器主要针对弱学习器。2.弱学习器主要是指泛化能力略优于随机猜测的学习器,弱的相结合会得到更好的泛化能力。三个臭皮匠嘛!3那么这些弱的掺杂起来为什么会得到好的呢?主要思想就是投票法。所以呀我们要得到好的集成效果,必须要求个体学习器要有一定准确性,而且要有差异。如果不理解可看172页图8.24.现在大致讲一下adabo原创 2017-09-30 19:28:58 · 195 阅读 · 0 评论 -
机器学习_支持向量机
1. http://notes.mengxin.tk/2017/07/06/understand-svm-easily-first-level/ 这个网站只是前面一小部分支持向量机的内容,但是贵在讲的很详细、有例子、容易理解2. http://blog.youkuaiyun.com/v_july_v/article/details/7624837 这个网站就是一篇大牛写的,很全。比周志华原创 2017-09-18 19:57:21 · 413 阅读 · 0 评论 -
机器学习_miml多示例多标记算法
本文参考:miml 多示例多标记学习 周志华多示例多标记的出现:真实的对象并不具有唯一的语义。简单来讲一个对象有不同的特征和属于不同的类别多示例多标记的优点:先过吧,并没有直观的体会到。比如1对多并不是合式函数,从子概念出发更容易分类等。算法:基于退化策略的miml学习算法(简单理解一下就是从复杂拆分到简单,退化为传统的监督学习问题)策略一:首先退化为多示例,mimlboost算法自己的理解;将...原创 2017-09-15 20:29:42 · 5364 阅读 · 1 评论 -
机器学习_范数规则化
1.范数的定义:(x1^r+x2^r)^(1/r) 。2.范数可以规则化参数3.规则化参数的好处:【1】先验知识的融入 eg 稀疏性:实现特征选择l0范数:参数非零元素的个数,l0范数越小,越稀疏l1范数:因为l0范数不好计算,而l1范数是l0的最优凸近似,更容易求解,所以稀疏性一般用l1范数【2】防止过拟合l1范数:其实也可以l2范数:l2范数很小,代表函数的每一原创 2017-10-06 15:32:23 · 265 阅读 · 0 评论 -
机器学习_保留分类信息的多任务特征选择/矩阵的k范数
1.问题的出现【1】常见的特征评价标准多用于单变量的度量(eg西瓜书里的信息熵、过滤式特征选取里的距离法),无法保证最优。【2】常见的选择法降低的是特征间的冗余性,不合理,因降低特征之间与分类有关的冗余性。【3】选择法以最大化离散为目标,忽略了类与类之间的相关性。2.矩阵的k范数【1】是矩阵内部各元素的平方和,再开根号【2】可由迹计算(对角线元素之和),具体看下链接【3原创 2017-10-07 14:43:11 · 646 阅读 · 0 评论 -
机器学习_机器学习课程起步
【1】两本书:tom-machine learning 非常经典的机器书 deep learning 只讲深度学习【2】普通编程的模型是自己定义的,而机器学习产生的模型是根据数据学得的。【3】有监督:y=f(x)。无监督:发现有趣结构。增强学习:介于两者之间(没有标记,只给了奖励或惩罚)【4】参数模型:直接假设数据满足某种分布。非参数模型:不好算 ????之后要根据实例...原创 2018-02-26 21:43:19 · 302 阅读 · 0 评论 -
机器学习_决策树
【0】决策树的几何意义:在几何空间内对空间进行划分,划分后每个子空间标类(即叶子节点的决策)【1】顾名思义,决策树是基于树的结构进行分类的,很符合日常。比如判断这个瓜好不好---->这个瓜的颜色--->这个瓜的敲响声,一层一层决策【2】决策树的目的:由已知样本构建一个树,这样在新的样本输入后,由这颗产生分类信息。【3】树的构造需要用到递归。【4】递归如何停止呢? 【4....原创 2017-10-24 21:19:38 · 269 阅读 · 0 评论 -
机器学习_Xgboost+对比
【1】参数解释:https://www.cnblogs.com/zhangbojiangfeng/p/6428988.html【2】实战:https://www.jianshu.com/p/5709fa18cdb4【3】原理:http://blog.youkuaiyun.com/github_38414650/article/details/76061893【4】调参步骤:http://blog.csdn.n...转载 2018-03-16 16:34:39 · 300 阅读 · 1 评论 -
机器学习_参数估计/贝叶斯(已知解析式求参数)
【1】必要性:已知概率密度函数形式,用样本来估计参数。【2】最大似然估计: 1.理论:现在已经拿到了很多个样本,那么我们要找一个参数,使这些样本发生的可能性最大。这些样本已经产生了,所以找到的这个参数应当最有利于这些样本的产生。 2.似然函数:实质就是概率函数,含有参数而样本点已经带入的函数。详情见下面。 http://blog.cs...原创 2017-11-07 16:34:27 · 1672 阅读 · 0 评论 -
机器学习_各种决策树的原理
【1】转载自http://blog.youkuaiyun.com/gumpeng/article/details/51397737【2】简单总结一下:ID4.5:使用信息增益来选择特征,缺点:偏好分支较多的属性。C4.5 :信息增益率、剪枝、连续、缺失均可处理CART: 基尼不纯度GBDT: boosting算法。GBDT的核心就在于,每一棵树学的是之前所有树结论和的残差,这个残差就是一个加预测值后能得真...转载 2018-03-12 16:32:00 · 155 阅读 · 0 评论 -
FM/FMM算法笔记
原文链接 FM\\FMM优点:特征稀疏时保持良好性能 FM原理: onehot的编码后特征极度稀疏,特征空间大(升维双刃剑:线性可分、过拟合维度爆炸--效果为王) 通过多项式交叉后,交叉特征含有更多的特征值为零样本。但是为了训练权重,让不同的特征权重区分化更多的依赖于该特征下非零的样本 采用一种矩阵分解的思路。求得的n*k维矩阵v为描述特征的因子 优点:训练的参数变少了;对于vi...转载 2018-10-17 16:23:29 · 5351 阅读 · 0 评论