
Charms of Mathematics
0x12A2A7F
探索数据宇宙.
展开
-
朴素贝叶斯(Naive Bayes)
现在我们仍以垃圾邮件的检测为例。假设记“一封邮件为垃圾邮件”为事件S,记“一封邮件中包含词语【中奖】”为事件B,那么根据前面提到的贝叶斯公式,我们可以写出一封邮件中包含词语【中奖】时为垃圾邮件的概率(这里用 ^ 代表非事件,用 | 代表条件概率):P(S|B)=P(S,B)/P(B)=P(B|S)*P(S)/[P(B|S)*P(S)+P(B|^S)*P(^S)]其中分母P(S,B)转载 2017-05-01 11:29:50 · 473 阅读 · 0 评论 -
支持向量机(三):核函数和KKT条件的理解
转:http://www.cnblogs.com/pursued-deer/p/7858122.html1 核函数1.1 核函数的定义设χ是输入空间(欧氏空间或离散集合),Η为特征空间(希尔伯特空间),如果存在一个从χ到Η的映射 φ(x): χ→Η使得对所有的x,z∈χ,函数Κ(x,z)=φ(x)∙φ(z), 则称Κ(x,z)为核函数,φ(x)为映射函数,φ(x)∙φ(z)为x...转载 2018-12-27 10:31:24 · 810 阅读 · 0 评论 -
支持向量机(二):SMO算法
转:http://www.cnblogs.com/pursued-deer/p/7857783.html1 SMO算法的概念这里补充一点,后面的K () 函数是核函数,是把低维度的数据投射到高维度中,即把非线性转换成线性分类。知道k 是核函数就可以了,后面会再详细讲解k 函数。我们在上篇中得到关于对偶因子的式子,对其求 α 极大,现在添加符号转化成求极小,两者等价。转化后的目标函数...转载 2018-12-27 10:30:07 · 472 阅读 · 0 评论 -
支持向量机(一):支持向量机的公式推导(Support Vector Machine,SVM)
转:https://www.cnblogs.com/pursued-deer/p/7857306.html1 认识向量机支持向量机是处理数据分类问题,目的是学会一个二分类的函数模型,属于监督式学习的方法,被广泛应用于统计分类和回归分析。通过建立一个超平面对样本数据进行分类,超平面涉及到凸优化及核函数的应用,而对于怎么找到最优的超平面就是这部分要讲的内容。2 线性分类假设数据样本集是...转载 2018-12-27 10:28:03 · 691 阅读 · 0 评论 -
线性回归算法推导(Linear Regression)
在现实生活中普遍存在着变量之间的关系,有确定的和非确定的。确定关系指的是变量之间可以使用函数关系式表示,还有一种是属于非确定的(相关),比如人的身高和体重,一样的身高体重是不一样的。线性回归: 1: 函数模型(Model): 假设有训练数据 那么为了...转载 2018-12-27 10:22:56 · 2705 阅读 · 2 评论 -
预测异常报警模型实践
一、前言外卖业务的快速发展对系统稳定性提出了更高的要求,每一次订单量大盘的异常波动,都需要做出及时的应对,以保证系统的整体稳定性。如何做出较为准确的波动预警,显得尤为重要。从时间上看,外卖订单量时间序列有两个明显的特征(如下图所示):周期性。每天订单量的变化趋势都大致相同,午高峰和晚高峰订单量集中。实时性。当天的订单量可能会受天气等因素影响,呈现整体的上涨或下降。订单量转载 2017-05-09 16:22:22 · 11689 阅读 · 0 评论 -
美团推荐算法实践
前言推荐系统并不是新鲜的事物,在很久之前就存在,但是推荐系统真正进入人们的视野,并且作为一个重要的模块存在于各个互联网公司,还是近几年的事情。随着互联网的深入发展,越来越多的信息在互联网上传播,产生了严重的信息过载。如果不采用一定的手段,用户很难从如此多的信息流中找到对自己有价值的信息。解决信息过载有几种手段:一种是搜索,当用户有了明确的信息需求意图后,将意图转换为几个简短的词转载 2017-05-09 14:56:39 · 743 阅读 · 1 评论 -
Bagging,Random Forests以及Boosting
前面讲到,决策树(决策树(Decision Tree))可以用来解决分类或回归问题,它们统称为分类回归树(Classification and Regression Tree,CART)。并且,分类回归树有一个显著的缺点,那就是对噪音十分敏感,稍微改变数据,树的形状很有可能发生较大的改变。为了防止分类回归树陷入过拟合,我们有一系列改善措施来提高树的性能,常见的有Bagging和Random转载 2017-05-01 11:59:30 · 1311 阅读 · 0 评论 -
决策树(Decision Tree)
决策树算法是一种基于决策的预测算法,顾名思义,每一个决策相当于一棵树的枝干,而每个枝干都会导向一个决策结果。决策树其实可以分为分类树和回归树,分类树是指输出每个样本的类别,而回归树是指输出数值结果,这里我们只讨论分类树。在应用中,决策树通常是基于一套规则去将数据分门别类。在一个数据集中,决策树算法会利用每一个样本的属性变量,并确定哪一个属性是最重要的,然后给出一系列决策去最优地将数转载 2017-05-01 11:54:57 · 746 阅读 · 0 评论 -
K-Means集群算法
无论什么数据集,理论上都可以形成一定数量的集群。例如,党我们拿到学生成绩表时,我们可以把成绩分数划分为优(90分左右)、良(80分左右)、中(70分左右)、差(60分及以下)。再例如对于工人工资表,我们也可以把工人按照工资划分成一定数量的集群,每个集群一定是围绕某个工资水平的。甚至我们可以抓取所有微信公众文章,将文章标题映射为向量表示(假设没有那些标题党文章的话),我们就可转载 2017-05-01 11:51:36 · 3413 阅读 · 0 评论 -
K最近邻算法
设想你想了解一个陌生人的饮食风格,如果你对他所知无几,那么最容易想到的一个捷径就是看看他生存的周围人群的口味。但是如果你对他的信息知道更多,例如知道他的年龄、收入等,那么这个时候就最好从他周围的人群中去挑选与他年龄、收入相近的人的饮食风格,这样预测会更准确一点。这其中蕴含的算法就是最近邻算法。最近邻算法的思想很简单,”距离“相近的事物总会具有更多的共性。其中涉及的数学知识并不深厚。转载 2017-05-01 11:43:21 · 1521 阅读 · 0 评论 -
随机梯度下降
梯度下降算法其实也很好理解,以简单的二元函数为例,如果我们想找到二元函数的极值,一般第一步我们是对该二元函数求导,然后令其为0,找出此时自变量的值,将该自变量代入函数式,即可求出该函数的极值。随机梯度下降算法是为了解决深度学习中多元目标函数的最优值问题,已经有很多该算法的变种算法。那么在深度学习中,针对实际问题,我们首先需要建立一个模型,然后确定一个目标函数。目标函数通常是网络输出转载 2017-05-01 11:39:02 · 5410 阅读 · 0 评论 -
支持向量机(四):支持向量机的Python语言实现
转:http://www.cnblogs.com/pursued-deer/p/7892342.html1 数据样本集的介绍这篇文章是根据《机器学习实战》一书的实例进行代码的详细解读,我在查找这方面的资料没有人对支持向量机算法 python 实现的详细说明,我就把我在看代码时的思路和代码详细注解。如果存在不足,欢迎给我留言相互探讨。好了,废话不多说,正文开始。。。首先我们使用的数据是二...转载 2018-12-27 10:43:39 · 694 阅读 · 0 评论