- 博客(3)
- 收藏
- 关注
原创 针对维度建模过程中多个case when时维度表建立的小技巧
针对一张表A存在如下几个字段: trans_id product_id cust_id merchant_no 01 02 03 04 其中,针对业务系统中的某张表记的prodcut_id的数字枚举值对应关系如下: 01 大华 02 易方达 03 汇添富 04 南方 我们直接在这张事实表中进行就需要写如下的代码: case when product_id=‘01’ th...
2019-06-26 19:22:45
1069
原创 对于学习率与梯度下降的通俗总结:
针对原始的样本(1,2) 针对线性回归的函数 y=kx 对应的损失函数是 y=2kx^2, 那我们的方向就是希望最小化这个损失函数,得到最终的k值,然后再代入到 原始的线性函数中,那具体应该如何在最小化损失函数的时候得到对应的k值呢? 方法一:对于损失函数求导,然后令导数等于0,得到对应的k值,有时候并不能直接解出来,并且这种方式可能是局部最优; 方法二:采用梯度下降与学习率的方法去求得最后的k值...
2019-06-11 20:26:10
5712
原创 对于spark sql中三种join方式的通俗总结
浅析spark中的三种join方式: 1、broadcast join: 适用于小表与大表的join,其中小表小于10M,本质上是去用空间换时间, 也就是将小表发送到每个大表对应的节点上,然后依次去遍历大表中的每个关联键去和对应小表中的关联键去匹配,找到相等的进行关联,并不会走shuffle过程,因此最终的文件数取决于block的个数,每个bolck是一个逻辑上的概念, 生成的规则是在建表并落HD...
2019-06-05 23:24:51
2291
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅