- 博客(9)
- 收藏
- 关注
转载 hive 窗口函数
1、partition by用于给结果集分组,如果没有指定那么它把整个结果集作为一个分组。2、Rank 是在每个分组内部进行排名的。SQL> select * from (select e.*,rank() over (partition by deptno order by sal) rk from emp e) t1 where t1.rk<=3;...
2019-03-14 21:51:31
149
原创 二分查找
二分查找算法思想:1、将数组排序(从小到大);2、每次跟中间的数mid比较,如果相等可以直接返回, 如果比mid大则继续查找大的一边,否则继续查找小的一边。输入:排序好的数组 - sSource[],数组大小 - array_size,查找的值 - key返回:找到返回相应的位置,否则返回-1int BinSearch(int sSource[], int array_size, in...
2019-03-14 21:38:21
187
原创 HMM模型
隐马尔可夫模型示例:模型简介:隐马尔可夫模型(Hidden Markov Model,HMM)是用来描述一个含有隐含未知参数的马尔可夫过程。x为观测序列z是我们无法观测到的隐藏的状态的随机序列,叫状态序列。所有关于时间和空间的问题都可以采用这个模型。隐藏状态一定是离散的。但是观测是可以是离散的也可以是连续的。隐马尔可夫模型的假设:对 HMM 来说,有如下三个重要假设,尽管这些假设...
2019-03-02 11:39:48
1731
原创 逻辑回归
逻辑回归简介:逻辑回归是广义线性模型,逻辑回归具有较好的泛化性和可解释性。假设数据是服从伯努利分布,抛硬币为典型例子,抛中为正面的概率是p,抛中为负面的概率是1−p.在逻辑运用极大似然或者对树损失的方法,采用梯度下降对参数的求解,将数据二分类。但是逻辑回归的因变量可以是二分类,也可是多分类。逻辑和线性回归:线性回归:为了满足Y=Xθ,求出特征向量Y和样本矩阵X之间的线性关系系数θ,Y是连续。...
2019-02-25 09:02:41
423
原创 PageRank
Web 数据挖掘定义:互联网文档的集合 A 中挖掘出一种 潜在模式 B本质是从输 入到输出的一个映射:A→B。采集的数据:一般情况包括数据检索、数据选取、数据搜集等 3 个单独的部分构成。PageRank 算法的基本思想:页面 B 有一个指向链接指向页面 A ,页面 B 证明肯定了页面 A 的重要性,于是就把页面 B 的PageRank 一部分值的传递给页面 A。传递的部分值为:PR(...
2019-02-23 12:17:51
798
1
原创 决策树相关公式
ID3:使用信息增益或者互信息进行特征选择。取值多的属性,能让数据更纯,信息增益更大。C4.5:信息增益率CART:基尼指数属性的信息增益或者基尼指数越大,就是属性对样本的熵减少能力越强,这个属性使得数据由不确定性变成确定性的能力强。经验熵:经验条件熵:信息增益:信息增益率:基尼系数:将f(x)=-lnx在x=1处一阶展开,忽略高阶无穷小,得到f(x)≈1-x给...
2019-02-22 23:11:59
6489
原创 回归公式推导
上面写的字迹有点乱,重新公式梳理:逻辑回归(Logistic Regression)是用于处理因变量为分类变量的回归问题,常见的是二分类或二项分布问题,也可以处理多分类问题,它实际上是属于一种分类方法。损失函数,就是衡量真实值和预测值之间差距的函数。所以,我们希望这个函数越小越好。在这里,最小损失是0。最小二乘意义下的矩阵的逆求参数最优解经过变量的变换实际值、预测值、误差...
2019-02-22 19:22:15
1590
原创 Xgboost 原理笔记
Xgboost 原理笔记数据描述:Y:是否下单 X: 用户id、是否是新用户等一些用户属性。商品类别、跟踪码、商品id、商品 下单总量、商品品牌、商品价格、用户1日内对该商品加购次数、商品最近3日内点击的总量、用户3日内对同类商品的加购次数、用户1日内对该商品加购次数、用户总点击的总量、用户总加购的总量 、用户总下单的总量、用户点击和下单量比、用户加购和下单量比等等。枚举当时在做数据处理相...
2019-02-22 15:45:45
396
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人