- 博客(21)
- 收藏
- 关注
原创 Hive grouping sets 多维度交叉清洗数据
工作中经常会遇到需要多维度交叉清洗数据的情况,比如计算每天的活跃用户数,需要知道每天整体dau,同时也需要知道不同平台如Android、iOS各自的dua。一般情况下这种情况可能需要写两个query,第一个query仅按日期 group by,第二个query按日期+平台 group by。针对这种情况Hive提供了grouping sets可以简单方式通过一个query实现相同的效果。语法结构如下:select day_id,platform,count(distinct user_id
2021-04-23 16:24:51
359
原创 Hive 多维度聚合分析查询
熟练使用多维度聚合函数,可以帮助开发者减少在处理数据时需要根据不同维度多次union query的代码编写工作Hive常见的多维度聚合函数有:With Cube:任意维度聚合 Grouping Sets:指定维度聚合 With Rollup:GROUP BY最左侧的维度为主层级聚合函数说明1、with cube1)语法:GROUP BY a,b WITH CUBE。...
2019-05-16 11:15:20
2890
转载 用 awk 统计文本文件中的某一列之和 (附 awk 命令简介)
awk -F'\t' -v sum=0 '{sum += $1} END{print sum}' file_name统计输出结果的最后一列之和:result | awk -F'\t' -v sum=0 '{sum += $NF} END{print sum}'附: awk 命令简介Unix / Linux 系统中,多用纯文本文件表示一些带格式的内容,比如就像数据库里
2016-03-15 17:25:57
10128
原创 ipython 报错:pkg_resources.DistributionNotFound: importlib
问题:mac 启动ipython报错,pkg_resources.DistributionNotFound: gnureadline解决方法:重新安装ipython终端输入:1.export CFLAGS=-Qunused-arguments2.export CPPFLAGS=-Qunused-arguments3.sudo -E pip install i
2015-08-21 11:06:00
2114
转载 hive内置操作符与函数
hive内置操作符与函数第一部分:关系运算Hive支持的关系运算符•常见的关系运算符•等值比较: =•不等值比较: •小于比较: •小于等于比较: •大于比较: >•大于等于比较: >=•空值判断: IS NULL•非空判断: IS NOT NULL•LIKE比较: LIKE•JAVA的LIKE操作: RLIKE
2014-12-18 11:02:06
502
原创 二分查找(java实现)
二分public class BinarySearch{ public static void main(String[] args) { int[] arr = new int[] { 1, 2, 4, 6, 7, 8, 9, 10 }; BinarySearch bs = new BinarySearch(); int pos = bs.recurs
2014-11-20 17:00:35
522
转载 网站运营活跃用户、流失用户、流失率、新用户流失率定义以及诠释
网站运营活跃用户、流失用户、流失率、新用户流失率定义以及诠释2012-12-22 745 人次浏览 评论 0 条核心提示:本文简单介绍了活跃用户数、流失用户数、流失率、新用户流失率这几个概念。当然,比较大型的网站还会有许多细分数据:普通用户、活跃用户、优质用户、普通用户流失率、活跃用户流失率、优质用户流失率等等。还可分为不同来源、不同等级、不同场景等等。 任
2014-11-11 10:02:13
9103
原创 EDM营销
eDM相关内容整理:1.eDM的KPI发送数,到达率,(独立)打开率,链接(独立)点击率,广告的采纳率。2.eDM中的数据筛选过滤无效用户,选取优质用户3.eDM上的RFM模型应用(测算客户价值)消费时间间隔(最近一次消费)(R:Recency):上一次购买与现在间隔时间的长短消费频率(F:Frequency):一定时期内购买商品的次数(忠诚度)消费
2014-11-07 14:50:29
1099
转载 基于贝叶斯平均的产品排序方法
基于贝叶斯平均的产品排序方法做产品评测(Product Review Website)网站时会遇到如何对产品进行智能排序(smarting ranking or smarting rating)的问题。假设有10款同类型不同品牌的电风扇,网站允许登录用户对这些产品进行评论和打分,为了让其他用户更快了解哪些产品是大多数用户认同的产品,哪些是不好用的产品,就要根据用户打分情
2014-11-07 11:14:22
784
转载 mysql中的select * for update
由于InnoDB预设是Row-Level Lock,所以只有「明确」的指定主键,MySQL才会执行Row lock (只锁住被选取的资料例) ,否则MySQL将会执行Table Lock (将整个资料表单给锁住)。举个例子:假设有个表单products ,里面有id跟name二个栏位,id是主键。例1: (明确指定主键,并且有此笔资料,row lock)SELECT * FROM
2014-10-10 09:55:52
436
转载 MySQL隔离级别
SQL标准定义了4类隔离级别,包括了一些具体规则,用来限定事务内外的哪些改变是可见的,哪些是不可见的。低级别的隔离级一般支持更高的并发处理,并拥有更低的系统开销。Read Uncommitted(读取未提交内容) 在该隔离级别,所有事务都可以看到其他未提交事务的执行结果。本隔离级别很少用于实际应用,因为它的性能也不比其他级别好多少。读取未提交的数据,也被称之为脏读(Dirty
2014-10-09 11:55:46
477
转载 mysql存储过程语法及实例
存储过程如同一门程序设计语言,同样包含了数据类型、流程控制、输入和输出和它自己的函数库。--------------------基本语法--------------------一.创建存储过程create procedure sp_name()begin.........end二.调用存储过程1.基本语法:call sp_name()注意:存储过
2014-09-29 11:51:11
484
转载 mysql之触发器before和after的区别
mysql之触发器before和after的区别我们先做个测试:接上篇日志建的商品表g和订单表o和触发器假设:假设商品表有商品1,数量是10;我们往订单表插入一条记录:insert into o(gid,much) values(1,20);会发现商品1的数量变为-10了。这就是问题的所在,因为我们之前创建的触发器是after,也就是说触发的语句是在插入订单记录之后才执
2014-09-28 16:28:25
2905
转载 mysql之触发器trigger
mysql之触发器trigger触发器(trigger):监视某种情况,并触发某种操作。触发器创建语法四要素:1.监视地点(table) 2.监视事件(insert/update/delete) 3.触发时间(after/before) 4.触发事件(insert/update/delete)语法:create trigger triggerNameafter/before
2014-09-28 16:22:21
405
转载 MySQL数据导出
mysql导出数据方法一:SELECT...INTO OUTFILEmysql> select * from mytbl into outfile '/tmp/mytbl.txt';Query OK, 3 rows affected (0.00 sec)查看mytbl.txt中内容如下:mysql> system cat /tmp/mytbl.txt1 na
2014-09-26 17:19:24
501
转载 FTP,HTTP各种端口号
FTP,HTTP等各种端口号FTP,HTTPFTP的端口是 21 SSH (Secure Shell)服务使用tcp 22 端口TELNET 23 端口DHCP server的端口号是67 MAIL 的端口号是25\110 pop3\smtp 的端口号是 110/25 DNS 的端口号是 53HTTP通信用的端口号是80SMMP:性能测试标准方法
2014-09-26 16:57:29
10234
转载 Mysql 存储过程
MySQL存储过程 14.1.1 创建存储过程MySQL中,创建存储过程的基本形式如下:CREATE PROCEDURE sp_name ([proc_parameter[,...]]) [characteristic ...] routine_body 其中,sp_name参数是存储过程的名称;proc_parameter表示存储过程的参数列
2014-09-26 16:42:46
466
转载 Process.waitFor()的返回值含义
以下是Linux中返回值对照表"OS error code 1: Operation not permitted""OS error code 2: No such file or directory""OS error code 3: No such process""OS error code 4: Interrupted system call"
2014-09-11 16:33:31
15957
转载 #hive_正则表达式#JAVA的正则表达式案例详解
如果你曾经用过Perl或任何其他内建正则表达式支持的语言,你一定知道用正则表达式处理文本和匹配模式是多么简单。如果你不熟悉这个术语,那么“正则表达式”(Regular Expression)就是一个字符构成的串,它定义了一个用来搜索匹配字符串的模式。许多语言,包括Perl、PHP、Python、JavaScript和JScript,都支持用正则表达式处理文本,一些文本编辑器用正则表
2014-09-04 10:32:35
1608
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人