
大数据
说的对
这个作者很懒,什么都没留下…
展开
-
hive sql 多行转为一行&&collect_set&&collect_list的区别
1.collect_list 多行转一行,有序不去重数据select 123 uid,'a' name, int(1) typefrom tunion allselect 123 uid,'b' name, int(2) typefrom tunion allselect 123 uid,'c' name, int(3) typefrom tunion allselec...原创 2020-01-10 17:12:18 · 561 阅读 · 0 评论 -
hive中对json字符串的解析-get_json_object和json_tuple的对比
在技术对app进行埋点时,会讲多个字段存放在一个数组中,因此模型调用数据时,要对埋点数据进行解析,以作进一步的清洗。本文将介绍解析json字符串的两个函数:get_json_object和json_tuple。表结构如下:一、get_json_object函数的作用:用来解析json字符串的一个字段:select get_json_object(flist,'$.fi...转载 2019-02-25 18:41:52 · 817 阅读 · 0 评论 -
flume配置文件--httpSource,kafkaChannel,hdfsSink
tier1.sources = httpSourcetier1.channels = kafkaChanneltier1.sinks = hdfsSinktier1.sources.httpSource.channels = kafkaChanneltier1.sinks.hdfsSink.channels = kafkaChannel#--------httpSource----...原创 2019-02-27 11:44:22 · 568 阅读 · 0 评论 -
数据挖掘+推荐系统+算法总结
最近在搞数据挖掘和推荐系统的项目,借着项目,自己简单吧常用的算法总结了一下,记录下来便于自己理解以及后期的学习,如有不对的地方请大家指出!1.ALS算法原理?答:对于user-product-rating数据,als会建立一个稀疏的评分矩阵,其目的就是通过一定的规则填满这个稀疏矩阵。als会对稀疏矩阵进行分解,分为用户-特征值,产品-特征值,一个用户对一个产品的评分可以由这两个矩阵...原创 2019-06-05 15:51:27 · 3729 阅读 · 1 评论 -
sql的开窗函数over()
sql的一大神器就是over()开窗函数,以前我经常使用的就是row_number() over(partition by rowName order by rowName)别的都不熟悉,今天特简单做个总结,以便以后使用。数据排序使用row_number() over(partition by rowName ORDER BY rowName) row_number 的功能是为从第一行...原创 2019-06-18 20:34:40 · 1754 阅读 · 0 评论 -
sql实现递归累加的三种方法
有如下表:Tdate number 2019-01-01 20 2019-01-02 15 2019-01-03 10 2019-01-04 21 2019-01-05 88 2019-01-06 60 实现number按时间累加输出:date number 2019-01-01 20 2019-...原创 2019-07-26 19:14:09 · 8046 阅读 · 4 评论