自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 快排和冒泡排序

2019-03-15 16:05:00 572

转载 hive 窗口函数

1、partition by用于给结果集分组,如果没有指定那么它把整个结果集作为一个分组。2、Rank 是在每个分组内部进行排名的。SQL> select * from (select e.*,rank() over (partition by deptno order by sal) rk from emp e) t1 where t1.rk<=3;...

2019-03-14 21:51:31 149

原创 二分查找

二分查找算法思想:1、将数组排序(从小到大);2、每次跟中间的数mid比较,如果相等可以直接返回, 如果比mid大则继续查找大的一边,否则继续查找小的一边。输入:排序好的数组 - sSource[],数组大小 - array_size,查找的值 - key返回:找到返回相应的位置,否则返回-1int BinSearch(int sSource[], int array_size, in...

2019-03-14 21:38:21 187

原创 HMM模型

隐马尔可夫模型示例:模型简介:隐马尔可夫模型(Hidden Markov Model,HMM)是用来描述一个含有隐含未知参数的马尔可夫过程。x为观测序列z是我们无法观测到的隐藏的状态的随机序列,叫状态序列。所有关于时间和空间的问题都可以采用这个模型。隐藏状态一定是离散的。但是观测是可以是离散的也可以是连续的。隐马尔可夫模型的假设:对 HMM 来说,有如下三个重要假设,尽管这些假设...

2019-03-02 11:39:48 1731

原创 逻辑回归

逻辑回归简介:逻辑回归是广义线性模型,逻辑回归具有较好的泛化性和可解释性。假设数据是服从伯努利分布,抛硬币为典型例子,抛中为正面的概率是p,抛中为负面的概率是1−p.在逻辑运用极大似然或者对树损失的方法,采用梯度下降对参数的求解,将数据二分类。但是逻辑回归的因变量可以是二分类,也可是多分类。逻辑和线性回归:线性回归:为了满足Y=Xθ,求出特征向量Y和样本矩阵X之间的线性关系系数θ,Y是连续。...

2019-02-25 09:02:41 423

原创 PageRank

Web 数据挖掘定义:互联网文档的集合 A 中挖掘出一种 潜在模式 B本质是从输 入到输出的一个映射:A→B。采集的数据:一般情况包括数据检索、数据选取、数据搜集等 3 个单独的部分构成。PageRank 算法的基本思想:页面 B 有一个指向链接指向页面 A ,页面 B 证明肯定了页面 A 的重要性,于是就把页面 B 的PageRank 一部分值的传递给页面 A。传递的部分值为:PR(...

2019-02-23 12:17:51 798 1

原创 决策树相关公式

ID3:使用信息增益或者互信息进行特征选择。取值多的属性,能让数据更纯,信息增益更大。C4.5:信息增益率CART:基尼指数属性的信息增益或者基尼指数越大,就是属性对样本的熵减少能力越强,这个属性使得数据由不确定性变成确定性的能力强。经验熵:经验条件熵:信息增益:信息增益率:基尼系数:将f(x)=-lnx在x=1处一阶展开,忽略高阶无穷小,得到f(x)≈1-x给...

2019-02-22 23:11:59 6489

原创 回归公式推导

上面写的字迹有点乱,重新公式梳理:逻辑回归(Logistic Regression)是用于处理因变量为分类变量的回归问题,常见的是二分类或二项分布问题,也可以处理多分类问题,它实际上是属于一种分类方法。损失函数,就是衡量真实值和预测值之间差距的函数。所以,我们希望这个函数越小越好。在这里,最小损失是0。最小二乘意义下的矩阵的逆求参数最优解经过变量的变换实际值、预测值、误差...

2019-02-22 19:22:15 1590

原创 Xgboost 原理笔记

Xgboost 原理笔记数据描述:Y:是否下单 X: 用户id、是否是新用户等一些用户属性。商品类别、跟踪码、商品id、商品 下单总量、商品品牌、商品价格、用户1日内对该商品加购次数、商品最近3日内点击的总量、用户3日内对同类商品的加购次数、用户1日内对该商品加购次数、用户总点击的总量、用户总加购的总量 、用户总下单的总量、用户点击和下单量比、用户加购和下单量比等等。枚举当时在做数据处理相...

2019-02-22 15:45:45 396

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除