
算法
mn_kw
喜欢研究大数据组件技术,深入内核,后续会更新工作级别的解决方案
展开
-
LDA主题模型
朴素贝叶斯的分析可以胜任许多文本分类问题。 无法解决语料中的一词多义和多词一义的问题,它更像是词法分析,而非语义分析。 如果使用词向量作为文档的特征,一词多义和多词一义会造成计算文档间相似度的不准确性。 可以通过增加“主题”的方式,一定程度上解决上述问题 a. 一个词可能被映射到多个主题中 一词多义 b. 多个词可能被映射到某个主题的概...原创 2018-04-16 09:40:36 · 347 阅读 · 0 评论 -
em算法
最大期望算法(Expectation Maximization Algorithm,又译期望最大化算法),是一种迭代算法,用于含有隐变量(latent variable)的概率参数模型的最大似然估计或极大后验概率估计。...原创 2018-04-13 15:30:40 · 239 阅读 · 0 评论 -
支持向量机
1. 线性可分支持向量机(重要)俩个类别可以通过一个超平面将其分开给定线性可分训练数据集,通过间隔最大化得到的分离超平面2. 线性支持向量机这里面如果有一些点无法做到可分,那么就叫线性支持向量机3. 非线性支持向量机通过核函数来分多类...原创 2018-04-13 14:46:48 · 213 阅读 · 0 评论 -
贝叶斯网络
2、贝叶斯网络贝叶斯网络,由一个有向无环图(DAG)和条件概率表(CPT)组成。 贝叶斯网络通过一个有向无环图来表示一组随机变量跟它们的条件依赖关系。它通过条件概率分布来参数化。每一个结点都通过P(node|Pa(node))来参数化,Pa(node)表示网络中的父节点。如图是一个简单的贝叶斯网络,其对应的全概率公式为:P(a,b,c)=P(c∣a,b)P(b∣a)P(a)P(a,b,c)=P(c...原创 2018-04-13 10:50:56 · 608 阅读 · 0 评论 -
贝叶斯算法详解和拉普拉斯平滑
简介贝叶斯定理是18世纪英国数学家托马斯·贝叶斯(Thomas Bayes)提出得重要概率论理论。以下摘一段 wikipedia 上的简介:所谓的贝叶斯定理源于他生前为解决一个“逆概”问题写的一篇文章,而这篇文章是在他死后才由他的一位朋友发表出来的。在贝叶斯写这篇文章之前,人们已经能够计算“正向概率”,如“假设袋子里面有 N 个白球,M 个黑球,你伸手进去摸一把,摸出黑球的概率是多大”。而一个自然...转载 2018-04-13 09:38:55 · 4205 阅读 · 0 评论 -
booting和adbboost
详细解释下,boosting中最基本的是adaboost,你要是弄清楚这个算法其他主要原理都差不多,只是实现手段或者说采用的数学公式不同.它是这样的:先对所有样本辅以一个抽样权重(一般开始的时候权重都一样即认为均匀分布),在此样本上训练一个分类器对样本分类,这样可以得到这个分类器的误差率,我们根据它的误差率赋以一个权重,大体是误差越大权重就越小,针对这次分错的样本我们增大它的抽样权...原创 2018-04-12 16:24:44 · 524 阅读 · 0 评论 -
随机森林
鉴于决策树容易过拟合的缺点,随机森林采用多个决策树的投票机制来改善决策树,我们假设随机森林使用了m棵决策树,那么就需要产生m个一定数量的样本集来训练每一棵树,如果用全样本去训练m棵决策树显然是不可取的,全样本训练忽视了局部样本的规律,对于模型的泛化能力是有害的产生n个样本的方法采用Bootstraping法,这是一种有放回的抽样方法,产生n个样本而最终结果采用Bagging的策略来获得,即多数投票...原创 2018-04-12 15:19:31 · 413 阅读 · 0 评论 -
决策树和信息增益的理解
决策树 通俗来说,决策树分类的思想类似于找对象。现想象一个女孩的母亲要给这个女孩介绍男朋友,于是有了下面的对话: 女儿:多大年纪了? 母亲:26。 女儿:长的帅不帅? 母亲:挺帅的。 女儿:收入高不? 母亲:不算很高,中等情况。 女儿:是公务员不? 母亲:是,在税务局上班呢。 女儿:那好,我去见见。 ...原创 2018-04-12 14:55:26 · 15593 阅读 · 8 评论 -
K近邻算法(KNN)
一.基本思想K近邻算法,即是给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例,这K个实例的多数属于某个类,就把该输入实例分类到这个类中。如下面的图: 通俗一点来说,就是找最“邻近”的伙伴,通过这些伙伴的类别来看自己的类别。比如以性格和做过的事情为判断特征,和你最邻近的10个人中(这里暂且设k=10),有8个是医生,有2个是强盗。那么你是医生的可能性更加大,就把你划到...转载 2018-04-12 13:57:51 · 289 阅读 · 0 评论 -
谱聚类
谱聚类(spectral clustering)原理总结 谱聚类(spectral clustering)是广泛使用的聚类算法,比起传统的K-Means算法,谱聚类对数据分布的适应性更强,聚类效果也很优秀,同时聚类的计算量也小很多,更加难能可贵的是实现起来也不复杂。在处理实际的聚类问题时,个人认为谱聚类是应该首先考虑的几种算法之一。下面我们就对谱聚类的算法原理做一个总结。1. 谱聚类概述 ...转载 2018-04-12 10:21:45 · 332 阅读 · 0 评论 -
PCA和SVD总结
1. PCA用来提取一个场的主要信息(主成分分量),而SVD一般用来分析俩个场的相关关系。俩者在具体的实现方法上也有不同,SVD是通过矩阵奇异值分解的方法分解俩个长的协方差矩阵的,而PCA是通过分解一个场的协方差举证2. PCA可用于特征的压缩、降维;当然也能去噪等;如果将矩阵转置后再用PCA,相当于去除相关度过大的样本数据--但不常见;SVD能够对一般矩阵分解,并可用于个性化推荐内容。...原创 2018-04-17 11:12:15 · 299 阅读 · 0 评论 -
SVD
奇异值分解(Singular Value Decomposition,以下简称SVD)是在机器学习领域广泛应用的算法,它不光可以用于降维算法中的特征分解,还可以用于推荐系统,以及自然语言处理等领域。是很多机器学习算法的基石。本文就对SVD的原理做一个总结,并讨论在在PCA降维算法中是如何运用运用SVD的。1. 回顾特征值和特征向量 我们首先回顾下特征值和特征向量的定义如下:Ax=λxAx=λ...转载 2018-04-17 10:43:32 · 1211 阅读 · 0 评论 -
主成分分析(PCA)
PCA(principal components analysis)即主成分分析技术,又称主分量分析。主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。在统计学中,主成分分析PCA是一种简化数据集的技术。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推...原创 2018-04-17 09:42:52 · 256 阅读 · 0 评论 -
条件随机场
条件随机场(CRF)由Lafferty等人于2001年提出,结合了最大熵模型和隐马尔可夫模型的特点,是一种无向图模型,近年来在分词、词性标注和命名实体识别等序列标注任务中取得了很好的效果。1. 有向图模型:又称作贝叶斯网络,事实上,在有些情况下,强制对某些节点之间的边增加方向是不合适的2. 无向图模型:使用没有方向的无向边,又称马尔可夫随机场或马尔可夫网络...原创 2018-04-16 16:59:48 · 191 阅读 · 0 评论 -
马儿可夫链
马尔科夫——今天的事情只取决于昨天,而明天的事情只取决于今天,与历史毫无关联原创 2018-04-16 16:42:59 · 327 阅读 · 0 评论 -
HMM(隐马尔可夫模型)
隐马尔可夫模型(Hidden Markov Model,HMM)是统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析,例如模式识别。是在被建模的系统被认为是一个马尔可夫过程与未观测到的(隐藏的)的状态的统计马尔可夫模型。下面用一个简单的例子来阐述:假设我手里有三个不同的骰子。第一个骰子是我们平常见的骰子(称这个骰子...转载 2018-04-16 15:50:43 · 216 阅读 · 0 评论 -
算法练习
https://blog.youkuaiyun.com/u010577768/article/details/79966306转载 2019-03-29 17:08:23 · 512 阅读 · 0 评论