
统计分析
阿喵酱紫糖
萌新Phd
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hive基础二(join原理和机制,join的几种类型,数据倾斜简单处理)
相关链接:Hive基础一(数据库,表,分区表,视图,导入导出数据)Hive基础二(join原理和机制,join的几种类型,数据倾斜简单处理)Hive基础三(查询中常用的语法)【注意】有些语句会报错,这是因为hive版本问题,比如有些join中的outer不能省略,等等。一,Hive中join的原理和机制Hive中的Join可分为Common Join(Reduce阶段完成jo...转载 2019-10-30 20:52:43 · 390 阅读 · 0 评论 -
最小二乘法和梯度下降法有哪些区别?
https://www.zhihu.com/question/20822481最小二乘法的目标:求误差的最小平方和,对应有两种:线性和非线性。线性最小二乘的解是closed-form即,而非线性最小二乘没有closed-form,通常用迭代法求解。迭代法,即在每一步update未知量逐渐逼近解,可以用于各种各样的问题(包括最小二乘),比如求的不是误差的最小平方和而是最小立方和。梯度下降...转载 2018-09-12 12:41:13 · 1942 阅读 · 0 评论 -
【详解】银行信用评分卡中的WOE在干什么?WOE的意义?为什么可以使用WOE值代替原来的特征值来做LR的训练输入数据
其实我是带着这个问题发现这篇帖子的为什么可以使用WOE值代替原来的特征值来做LR的训练输入数据以下为原文https://zhuanlan.zhihu.com/p/30026040WOE & IVwoe全称叫Weight of Evidence,常用在风险评估、授信评分卡等领域。IV全称是Information value,可通过woe加权求和得到,衡量自变量对应变量...转载 2018-10-25 13:19:02 · 14634 阅读 · 3 评论 -
大规模数据的相似度计算:LSH算法
前言最近在工作中需要去优化离职同事留下的用户协同过滤算法,本来想协同过滤嘛,不就是一顿算相似度,然后取top-k相似的用户去做推荐就完了。结果看代码的过程中,对计算相似度的部分却是一头雾水,主要是对其中使用的LSH算法不甚了解。经过了一番调研之后,才算是理解了这个算法的精妙,也感到自己之前的粗糙想法实在是naive。传统的协同过滤算法,不管是基于用户还是基于物品的,其中最关键的一个问题便是...转载 2019-01-18 15:26:11 · 5438 阅读 · 0 评论 -
Locality Sensitive Hashing(LSH)之随机投影法
1. 概述LSH是由文献[1]提出的一种用于高效求解最近邻搜索问题的Hash算法。LSH算法的基本思想是利用一个hash函数把集合中的元素映射成hash值,使得相似度越高的元素hash值相等的概率也越高。LSH算法使用的关键是针对某一种相似度计算方法,找到一个具有以上描述特性的hash函数。LSH所要求的hash函数的准确数学定义比较复杂,以下给出一种通俗的定义方式:对于集合S,集合内元...转载 2019-01-21 11:12:29 · 1866 阅读 · 2 评论 -
[NLP] 秒懂词向量Word2vec的本质
1. 引子大家好我叫数据挖掘机皇家布鲁斯特大学肄业我喝最烈的果粒橙,钻最深的牛角尖——执着如我今天我要揭开Word2vec的神秘面纱直窥其本质相信我,这绝对是你看到的最浅白易懂的 Word2vec 中文总结(蛤?你问我为啥有这个底气?且看下面,我的踩坑血泪史。。。)2. Word2vec参考资料总结(以下都是我踩过的坑,建议先跳过本节,阅读正文部分,读完全文回...转载 2019-02-16 10:05:42 · 845 阅读 · 1 评论