@朱明珠-优快云博客

转载 hive 窗口函数

1、partition by用于给结果集分组，如果没有指定那么它把整个结果集作为一个分组。2、Rank 是在每个分组内部进行排名的。SQL&gt; select * from (select e.*,rank() over (partition by deptno order by sal) rk from emp e) t1 where t1.rk&lt;=3;...

2019-03-14 21:51:31 172

原创二分查找

二分查找算法思想：1、将数组排序(从小到大)；2、每次跟中间的数mid比较，如果相等可以直接返回，如果比mid大则继续查找大的一边，否则继续查找小的一边。输入：排序好的数组 - sSource[]，数组大小 - array_size，查找的值 - key返回：找到返回相应的位置，否则返回-1int BinSearch(int sSource[], int array_size, in...

2019-03-14 21:38:21 209

原创 HMM模型

隐马尔可夫模型示例：模型简介：隐马尔可夫模型（Hidden Markov Model，HMM）是用来描述一个含有隐含未知参数的马尔可夫过程。x为观测序列z是我们无法观测到的隐藏的状态的随机序列，叫状态序列。所有关于时间和空间的问题都可以采用这个模型。隐藏状态一定是离散的。但是观测是可以是离散的也可以是连续的。隐马尔可夫模型的假设：对 HMM 来说，有如下三个重要假设，尽管这些假设...

2019-03-02 11:39:48 1790

逻辑回归简介：逻辑回归是广义线性模型，逻辑回归具有较好的泛化性和可解释性。假设数据是服从伯努利分布，抛硬币为典型例子，抛中为正面的概率是p,抛中为负面的概率是1−p.在逻辑运用极大似然或者对树损失的方法，采用梯度下降对参数的求解，将数据二分类。但是逻辑回归的因变量可以是二分类，也可是多分类。逻辑和线性回归：线性回归：为了满足Y=Xθ，求出特征向量Y和样本矩阵X之间的线性关系系数θ，Y是连续。...

2019-02-25 09:02:41 472

原创 PageRank

Web 数据挖掘定义：互联网文档的集合 A 中挖掘出一种潜在模式 B本质是从输入到输出的一个映射：A→B。采集的数据：一般情况包括数据检索、数据选取、数据搜集等 3 个单独的部分构成。PageRank 算法的基本思想：页面 B 有一个指向链接指向页面 A ，页面 B 证明肯定了页面 A 的重要性，于是就把页面 B 的PageRank 一部分值的传递给页面 A。传递的部分值为：PR(...

2019-02-23 12:17:51 837 1

原创决策树相关公式

ID3:使用信息增益或者互信息进行特征选择。取值多的属性，能让数据更纯，信息增益更大。C4.5:信息增益率CART:基尼指数属性的信息增益或者基尼指数越大，就是属性对样本的熵减少能力越强，这个属性使得数据由不确定性变成确定性的能力强。经验熵：经验条件熵：信息增益：信息增益率：基尼系数：将f(x)=-lnx在x=1处一阶展开，忽略高阶无穷小，得到f(x)≈1-x给...

2019-02-22 23:11:59 6592

原创回归公式推导

上面写的字迹有点乱，重新公式梳理：逻辑回归（Logistic Regression）是用于处理因变量为分类变量的回归问题，常见的是二分类或二项分布问题，也可以处理多分类问题，它实际上是属于一种分类方法。损失函数，就是衡量真实值和预测值之间差距的函数。所以，我们希望这个函数越小越好。在这里，最小损失是0。最小二乘意义下的矩阵的逆求参数最优解经过变量的变换实际值、预测值、误差...

2019-02-22 19:22:15 1700

原创 Xgboost 原理笔记

Xgboost 原理笔记数据描述：Y：是否下单 X: 用户id、是否是新用户等一些用户属性。商品类别、跟踪码、商品id、商品下单总量、商品品牌、商品价格、用户1日内对该商品加购次数、商品最近3日内点击的总量、用户3日内对同类商品的加购次数、用户1日内对该商品加购次数、用户总点击的总量、用户总加购的总量、用户总下单的总量、用户点击和下单量比、用户加购和下单量比等等。枚举当时在做数据处理相...

2019-02-22 15:45:45 444

qq_26174823的博客

原创快排和冒泡排序