
机器学习-理论
机器学习-理论
嘀嗒嘀嘀嗒嘀
别低头,王冠会掉
展开
-
lightgbm
https://www.msra.cn/zh-cn/news/features/lightgbm-20170105转载 2019-10-23 23:53:30 · 260 阅读 · 0 评论 -
最小二乘法
求解方法https://www.zhihu.com/question/24900876转载 2019-08-05 11:01:48 · 135 阅读 · 0 评论 -
[百面机器学习]前向神经网络
1、多层感知机表示异或逻辑时最少需要几个隐含层(仅考虑二元输入)0层是否可以?具有0个隐藏层,等价于逻辑回归。是否可以表示异或运算呢?X,Y相同为0,不同为1。Z=sigmoid(AX+BY+C)Z = sigmoid(AX + BY + C)Z=sigmoid(AX+BY+C)sigmoidsigmoidsigmoid是单调递增的。A取值为正数时,Z和X正相关,此时,Y= 0 时,X...原创 2019-07-23 22:43:14 · 346 阅读 · 0 评论 -
【机器学习】损失函数(代价函数)、目标函数 | 经验风险、期望风险、结构风险
损失函数 = 代价函数损失函数:最普通的一种,L(Y,f(x))=(Y−f(x))2L(Y,f(x)) = (Y - f(x))^2L(Y,f(x))=(Y−f(x))2如果仅仅使损失函数最小化,会出现下图的图三的结果。但我们需要图二的结果,使得图二成为目标函数最小化的结果。目标函数 = 损失函数 + 结构风险函数(经验风险函数 + 正则项/惩罚)如此,加上惩罚项,图三的目标函数也就没有那...转载 2019-05-04 16:34:30 · 1085 阅读 · 0 评论 -
正则化和贝叶斯先验
参考自here事实上如果从贝叶斯的观点,所有的正则化都是来自于对参数分布的先验。现在来看一下为什么Laplace先验会导出L1正则化,也顺便证明Gauss(高斯)先验会导出L2正则化。...转载 2019-04-22 20:07:50 · 425 阅读 · 0 评论 -
什么是KKT条件
尊重原创:知乎:什么是KKT条件对于具有等式和不等式约束的一般优化问题[\begin{array}{l}\min {\rm{ }}f({\bf{x}})\s.t.{\rm{ }}{g_j}({\bf{x}}) \le 0(j = 1,2, \cdots ,m)\{\rm{ }}{h_k}({\bf{x}}) = 0(k = 1,2, \cdots ,l)\end{ar...转载 2019-04-22 17:12:52 · 20606 阅读 · 1 评论 -
遗传算法
引入“袋鼠跳”,理解下基本的算法流程。转载 2019-08-05 13:39:39 · 492 阅读 · 0 评论 -
优化算法之智能优化算法
遗传算法目前我的感受是:在解空间内随机搜索参数的,比起梯度下降原创 2019-08-08 22:22:44 · 1314 阅读 · 1 评论 -
逻辑回归LR的特征为什么要先离散化
在工业界,很少直接将连续值作为特征喂给逻辑回归模型,而是将连续特征离散化为一系列0、1特征交给逻辑回归模型,这样做的优势有以下几点:稀疏向量内积乘法运算速度快,计算结果方便存储,容易scalable(扩展)。离散化后的特征对异常数据有很强的鲁棒性:比如一个特征是年龄>30是1,否则0。如果特征没有离散化,一个异常数据“年龄300岁”会给模型造成很大的干扰。逻辑回归属于广义线...转载 2019-09-21 21:27:50 · 253 阅读 · 0 评论 -
隐马尔科夫模型
首先对HMM解决的问题先做个介绍:1) 评估观察序列概率。即给定模型λ=(A,B,Π)和观测序列O={o1,o2,…oT},计算在模型λ下观测序列O出现的概率P(O|λ)。这个问题的求解需要用到前向后向算法,这个问题是HMM模型三个问题中最简单的。 已知是给定模型和观测O,而不是观测序列O1O_1O1和O2O_2O2?????2)预测问题,也称为解码问题。即给定模型λ=(A,B,Π)和观测...转载 2019-09-11 23:25:35 · 141 阅读 · 0 评论 -
【相似度问题】KL散度 +轨迹相似度
KL散度表示分布之间的差异,不是距离的轨迹相似性度量原创 2019-09-03 18:31:26 · 1483 阅读 · 0 评论 -
Tensorflow多GPU多进程占用的问题
在使用实验室的服务器要运行训练自己的网络的时候,经常出现有另外的同学也在训练网络,4个GPU总是有几个被占用。因此老是出现下面的警报:creating context when one is currently active; existing: 0x2a7d250Internal: failed initializing StreamExecutor for CUDA device ordi...转载 2019-08-30 22:29:46 · 1109 阅读 · 0 评论 -
相似性度量
https://www.zhihu.com/question/27213170转载 2019-08-16 16:11:13 · 368 阅读 · 0 评论 -
看起来像原子核一样难懂的核函数真的难吗?
面对非线性问题时,会用到“核函数”的技巧,那么到底什么是核函数呢?核函数:映射关系的内积。映射函数本身仅仅是一种映射关系,并没有增加维度的特性,不过可以利用核函数的特性,构造可以增加维度的核函数。二维映射到三维,区分就容易了,这是常用核函数的原因。为什么PCA降维算法也使用核函数呢?要注意,核函数和映射没有关系。核函数只是用来计算映射到高维空间之后的内积的一种简便方法。举一个知乎上霍华德...转载 2019-08-09 23:00:52 · 459 阅读 · 0 评论 -
随机森林的特征重要性排序
Feature Selection如果没有做好这部分,也是有缺点的:其中最致命的就是,可能得到的是错误的答案,一不小心找到的关系就是关联,而不是原因。所以RF中加入了在哪里切一刀。RF怎么选特征random test在这个特征里面加入一些垃圾,如果和不放的准确率类似,那么就可以说明是重要的。加什么垃圾呢?垃圾还能选吗?一个是把原数据的分布改掉,一个是杂絮的影响。有放回抽样boo...原创 2019-09-08 19:01:49 · 5104 阅读 · 0 评论 -
决策树进阶(一)划分准则-公式篇
1、信息熵H(x)=−∑i=1np(xi)log2p(xi)H(x) = -\sum_{i=1}^n p(x_i)log_2p(x_i)H(x)=−∑i=1np(xi)log2p(xi) ---------注意负号xi表示x取值为xix_i表示x取值为x_ixi表示x取值为xip(xi)表示值为xi出现的概率p(x_i)表示值为x_i出现的概率p(xi)表示值为xi...原创 2019-04-07 17:09:41 · 1541 阅读 · 0 评论 -
【机器学习算法】朴素贝叶斯法(NaiveBayes)
朴素贝叶斯法对条件概率分布作了条件独立性假设,条件独立假设等于是说用于分类的特征在类确定的条件下都是条件独立的。 这一假设使朴素贝叶斯变得简单。1.学习与分类朴素贝叶斯法实际上是学习到生成数据的机制,所以属于生成模型,2.参数估计2.1 极大似然估计可以应用极大似然估计法估计相应的概率,先验概率P(Y=Ck)P(Y=Ck)P(Y=C_k)和P(X(j)=x(j)|Y=ck...原创 2018-06-06 20:58:13 · 524 阅读 · 0 评论 -
【章华燕达人课】KNN不学习也可以预测
分类算法没有显示学习的过程,实际的工作原理是利用训练数据对特征向量空间进行划分,并将其划分的结果作为其最终的算法模型。KNN分类算法对于需要预测的输入向量x,我们只需要在训练数据集中寻找K个与向量x最近的向量的集合,然后把x的类标预测为这k个样本中类标数最多的那一类。k值的选取交叉验证 一般我们选择K在较小的范围内,同时在测试集上准确率最高的一个确定为最终的算法超参数...转载 2019-03-01 13:49:13 · 382 阅读 · 0 评论 -
【章华燕的达人课】一、机器学习
1.AI 和机器学习我研究的方向是深度学习,说实话我对机器学习的了解,并不多,还没有那么深入,但是直接就跑到了机器学习上,很疑惑,很多知识并不懂。 然后老师讲到了这三者的关系,所以学习深度学习之前应该先学习机器学习,然后才能了解更多的内容。 所谓“基础不牢,地动山摇”,目前我们看到的数据集对应的公开算法都是前辈们调参好的参数,并不能锻炼自己的调参的能力,但是真正解决问题的时候,遇到的都是新...原创 2018-11-08 18:43:44 · 469 阅读 · 0 评论 -
第8周:聚类
1.无监督学习简介:机器自己分类,我们并不知道为什么这么分类第一个无监督算法:聚类聚类算法一般用来做什么?1)市场分割,也许你在数据库中存储了许多客户的信息,而你希望将他们分成不同的客户群,这样你可以对不同类型的客户分别销售产品或者分别提供更适合的服务。2)社交网络分析:事实上有许多研究人员正在研究这样一些内容,他们关注一群人,关注社交网络,例如 Facebook, Google+, 或者是其他的...原创 2018-04-19 15:27:40 · 282 阅读 · 0 评论 -
杂七杂八了解到的部分算法
EM算法(Expectation Maximization Algorithm 最大期望算法)一种迭代算法,在统计学中被用于寻找,依赖于不可观察的隐性变量的概率模型中,参数的最大似然估计。 在每一次的迭代过程中,主要分为两步:即求期望(Expectation)步骤和最大化(Maximization)步骤。...原创 2018-04-25 15:14:15 · 150 阅读 · 0 评论 -
第8周:降维
降维:第二种类型的无监督学习问题 有几个不同的原因需要做降维。1.动机一:数据压缩不仅允许我们压缩数据,使用较少的计算机内存或磁盘空间,也让我们加快学习算法。2.动机二:数据可视化降维的算法只负责减少维数,新产生的特征的意义,就必须由我们自己去发现了。 假使我们有有关于许多不同国家的数据,每一个特征向量都有 50 个特征(如, GDP,人均 GDP,平均寿命等)。如...原创 2018-04-19 18:20:00 · 218 阅读 · 0 评论 -
MarkDown写作模式
欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I...转载 2018-04-19 18:17:15 · 567 阅读 · 0 评论 -
Artificial Intelligence for b Health and Health Care
这篇报告是2017年12月发布的,作者是美国独立的科学和技术专家组成的独立咨询小组,针对一些认为医疗AI所作出的承诺仅是炒作,而没办法真正实现的一个详细的解释,论据也都是一些已经将AI技术应用到医学领域的案例,这个报告也关注了医疗AI技术目前发展遇到的问题,并对如何更好的发展提出了建议。可执行摘要:在智能可移动设备上推行智能健康系统,利于收集数据,并且容易执行。 关注: 在未来10...原创 2018-04-23 17:18:13 · 353 阅读 · 0 评论 -
【python】高斯混合模型---------未解决
1.公式推导2.3.算法步骤import mathimport copyimport numpy as npimport matplotlib.pyplot as pltisdebug = False# 指定k个高斯分布参数,这里k=2。2个高斯分布具有相同均方差Sigma,均值分别为Mu1,Mu2。def ini_data_1(Sigma,Mu1,Mu2,k,N)...原创 2019-03-01 13:48:24 · 656 阅读 · 0 评论 -
【机器学习】归一化是训练必不可少的环节吗
从下面两个问题解释一下一、目的1. 提升模型的收敛速度如果选择不归一化,对于数量级相差比较大的数据,绘制的图就类似于椭圆,梯度下降运算会很慢。选择归一化,对于数量级相差比较大的数据,绘制的图就类似圆形,梯度下降速度很快,少走很多弯路。具体说下是如何影响速度的呢?如下图,θ1{θ_1}θ1的取值范围为[0,2000],而θ2{θ_2}θ2的取值范围为[1,5],假如只有这两个特征...原创 2019-03-14 09:41:25 · 974 阅读 · 0 评论 -
[机器学习]KFold 和 StratifiedKFold
首先这是从一个错误引出来的:ValueError Traceback (most recent call last)<ipython-input-42-2ab744268d80> in <module>() 20 print('---------分割线--------------') 21...原创 2019-03-03 21:53:17 · 1951 阅读 · 0 评论 -
熵、联合熵、条件熵
熵表示不确定性,引入一个故事小明班有32个人,在你不认识小明的情况下,采用问问题的方式,知道小明班的第一名是谁?小明只能回答是或者不是。你们班的第一名学号在1-16之间吗?是。你们班的第一名学号在1-8之间吗?不是。…不难算出,至少问小明5次能得到答案。但是假如你认识小明班的学霸小红,小强。那么只需问:第一名是小强吗?不是第一名是小红吗?是Game Over因此...转载 2019-03-01 13:48:19 · 1722 阅读 · 0 评论 -
one-hot编码
首先注意一个坑train数据和test数据如果分别对一些特征进行编码,将会导致数目不一,解决办法就是先合并所有数据(前提是数据量少,虽然这么做是不太合理的,因为真正预测的时候,预测数据是未知的。数据量大的话, 目前没办法),然后统一进行one-hot编码,然后再使用pandas分片将数据分开。...原创 2019-03-01 13:44:19 · 1599 阅读 · 0 评论 -
最大熵和逻辑回归模型比较
请参考 https://www.zhihu.com/question/24094554 红色石头的回答原创 2019-03-01 13:48:11 · 1044 阅读 · 0 评论 -
最大熵模型的GIS优化求解
并不实用,只是帮助理解最大熵模型比较详细直观的了,https://vimsky.com/article/776.html转载 2019-03-01 13:48:06 · 438 阅读 · 0 评论 -
基于机器学习逻辑回归对心脏病数据的危险因素探索
参考 本文会提供代码误解一:机器学习-逻辑回归以为是单纯的分类算法,但是可以根据系数的大小,进行危险因素的排序,医学研究应用比较多 其实就是简单的,y = a1a1a_{1} * x1x1x_{1} + a2a2a_{2} * x2x2x_{2} + a3a3a_{3} * x3x3x_{3} + … + anana_{n} * xnxnx_{n} x1x1x_{1} 增加 1,那...原创 2019-03-01 13:48:31 · 1253 阅读 · 2 评论 -
PCA 原理
摘自here1.数据向量表示及降维问题 举个例子: 假如某学籍数据有两列M和F,其中M列的取值是如何此学生为男性取值1,为女性取值0;而F列是学生为女性取值1,男性取值0。此时如果我们统计全部学籍数据,会发现对于任何一条记录来说,当M为1时F必定为0,反之当M为0时F必定为1。在这种情况下,我们将M或F去掉实际上没有任何信息的损失,因为只要保留一列就可以完全还原另一列。只是...转载 2018-06-08 20:57:44 · 359 阅读 · 0 评论