
scala
z小丑八怪r
这个作者很懒,什么都没留下…
展开
-
案例 根据IP地址计算归属地 spark程序广播变量实现
IP规则数据1.0.1.0|1.0.3.255|16777472|16778239|亚洲|中国|福建|福州||电信|350100|China|CN|119.306239|26.0753021.0.8.0|1.0.15.255|16779264|16781311|亚洲|中国|广东|广州||电信|440100|China|CN|113.280637|23.1251781.0.32.0|1.0.63.255|16785408|16793599|亚洲|中国|广东|广州||电信|440100|China|CN原创 2021-01-02 21:03:40 · 794 阅读 · 0 评论 -
案例 统计用户上网流量,如果两次上网的时间小于10分钟,合并到一起 --spark程序实现
/** * 数据分析: * uid,startTime, endTime, downFlow, lag() over , flag , sum_over * 1,2020-02-18 14:20:30,2020-02-18 14:46:30,20, 2020-02-18 14:20:30 0 0 * 1,2020-02-18 14:47:20,2020-02-18 15:20:30,30, 2020-02-18 14:46:30 0 0 * 1,2020-02-18 15:37:原创 2021-01-01 20:54:14 · 285 阅读 · 0 评论 -
案例 计算店铺的月销售额和累加到当前月的销售和--spark程序编写
/** * 数据: * shop1,2019-01-18,500 * shop1,2019-02-10,500 * shop1,2019-02-10,200 * shop1,2019-02-11,600 * shop1,2019-02-12,400 * shop1,2019-02-13,200 * shop1,2019-02-15,100 * shop2,2019-02-10,100 * shop2,2019-02-11,100 * shop2,2019-02-13,100 * sh原创 2021-01-01 20:46:54 · 555 阅读 · 0 评论 -
案例 计算连续登录3天及以上的用户--spark程序编写三种实现方式
第一种实现方式/** * guid01,2018-02-28 1 * guid01,2018-03-01 2 * guid01,2018-03-01 * guid01,2018-03-02 3 * guid01,2018-03-04 4 * guid01,2018-03-05 5 * guid01,2018-03-06 6 * guid01,2018-03-07 7 * * 思路:根据uid分组,组内按日期排序,开个窗口row_num * 日期减去row_num 得原创 2021-01-01 20:44:06 · 524 阅读 · 0 评论