自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 收藏
  • 关注

原创 Hive grouping sets 多维度交叉清洗数据

工作中经常会遇到需要多维度交叉清洗数据的情况,比如计算每天的活跃用户数,需要知道每天整体dau,同时也需要知道不同平台如Android、iOS各自的dua。一般情况下这种情况可能需要写两个query,第一个query仅按日期 group by,第二个query按日期+平台 group by。针对这种情况Hive提供了grouping sets可以简单方式通过一个query实现相同的效果。语法结构如下:select day_id,platform,count(distinct user_id

2021-04-23 16:24:51 359

原创 Hive 多维度聚合分析查询

熟练使用多维度聚合函数,可以帮助开发者减少在处理数据时需要根据不同维度多次union query的代码编写工作Hive常见的多维度聚合函数有:With Cube:任意维度聚合 Grouping Sets:指定维度聚合 With Rollup:GROUP BY最左侧的维度为主层级聚合函数说明1、with cube1)语法:GROUP BY a,b WITH CUBE。...

2019-05-16 11:15:20 2890

转载 用 awk 统计文本文件中的某一列之和 (附 awk 命令简介)

awk -F'\t' -v sum=0 '{sum += $1} END{print sum}' file_name统计输出结果的最后一列之和:result | awk -F'\t' -v sum=0 '{sum += $NF} END{print sum}'附: awk 命令简介Unix / Linux 系统中,多用纯文本文件表示一些带格式的内容,比如就像数据库里

2016-03-15 17:25:57 10128

原创 ipython 报错:pkg_resources.DistributionNotFound: importlib

问题:mac 启动ipython报错,pkg_resources.DistributionNotFound: gnureadline解决方法:重新安装ipython终端输入:1.export CFLAGS=-Qunused-arguments2.export CPPFLAGS=-Qunused-arguments3.sudo -E pip install i

2015-08-21 11:06:00 2114

转载 hive内置操作符与函数

hive内置操作符与函数第一部分:关系运算Hive支持的关系运算符•常见的关系运算符•等值比较: =•不等值比较: •小于比较: •小于等于比较: •大于比较: >•大于等于比较: >=•空值判断: IS NULL•非空判断: IS NOT NULL•LIKE比较: LIKE•JAVA的LIKE操作: RLIKE

2014-12-18 11:02:06 502

原创 二分查找(java实现)

二分public class BinarySearch{ public static void main(String[] args) { int[] arr = new int[] { 1, 2, 4, 6, 7, 8, 9, 10 }; BinarySearch bs = new BinarySearch(); int pos = bs.recurs

2014-11-20 17:00:35 522

转载 网站运营活跃用户、流失用户、流失率、新用户流失率定义以及诠释

网站运营活跃用户、流失用户、流失率、新用户流失率定义以及诠释2012-12-22 745 人次浏览 评论 0 条核心提示:本文简单介绍了活跃用户数、流失用户数、流失率、新用户流失率这几个概念。当然,比较大型的网站还会有许多细分数据:普通用户、活跃用户、优质用户、普通用户流失率、活跃用户流失率、优质用户流失率等等。还可分为不同来源、不同等级、不同场景等等。 任

2014-11-11 10:02:13 9103

原创 EDM营销

eDM相关内容整理:1.eDM的KPI发送数,到达率,(独立)打开率,链接(独立)点击率,广告的采纳率。2.eDM中的数据筛选过滤无效用户,选取优质用户3.eDM上的RFM模型应用(测算客户价值)消费时间间隔(最近一次消费)(R:Recency):上一次购买与现在间隔时间的长短消费频率(F:Frequency):一定时期内购买商品的次数(忠诚度)消费

2014-11-07 14:50:29 1099

转载 基于贝叶斯平均的产品排序方法

基于贝叶斯平均的产品排序方法做产品评测(Product Review Website)网站时会遇到如何对产品进行智能排序(smarting ranking or smarting rating)的问题。假设有10款同类型不同品牌的电风扇,网站允许登录用户对这些产品进行评论和打分,为了让其他用户更快了解哪些产品是大多数用户认同的产品,哪些是不好用的产品,就要根据用户打分情

2014-11-07 11:14:22 784

转载 mysql中的select * for update

由于InnoDB预设是Row-Level Lock,所以只有「明确」的指定主键,MySQL才会执行Row lock (只锁住被选取的资料例) ,否则MySQL将会执行Table Lock (将整个资料表单给锁住)。举个例子:假设有个表单products ,里面有id跟name二个栏位,id是主键。例1: (明确指定主键,并且有此笔资料,row lock)SELECT * FROM

2014-10-10 09:55:52 436

转载 MySQL隔离级别

SQL标准定义了4类隔离级别,包括了一些具体规则,用来限定事务内外的哪些改变是可见的,哪些是不可见的。低级别的隔离级一般支持更高的并发处理,并拥有更低的系统开销。Read Uncommitted(读取未提交内容)       在该隔离级别,所有事务都可以看到其他未提交事务的执行结果。本隔离级别很少用于实际应用,因为它的性能也不比其他级别好多少。读取未提交的数据,也被称之为脏读(Dirty

2014-10-09 11:55:46 477

原创 查看mysql表占磁盘大小

mysql 查看各表所占磁盘大小语句:

2014-10-08 11:11:56 619

原创 回归分析

一、目的

2014-09-30 13:59:06 724

转载 mysql存储过程语法及实例

存储过程如同一门程序设计语言,同样包含了数据类型、流程控制、输入和输出和它自己的函数库。--------------------基本语法--------------------一.创建存储过程create procedure sp_name()begin.........end二.调用存储过程1.基本语法:call sp_name()注意:存储过

2014-09-29 11:51:11 484

转载 mysql之触发器before和after的区别

mysql之触发器before和after的区别我们先做个测试:接上篇日志建的商品表g和订单表o和触发器假设:假设商品表有商品1,数量是10;我们往订单表插入一条记录:insert into o(gid,much) values(1,20);会发现商品1的数量变为-10了。这就是问题的所在,因为我们之前创建的触发器是after,也就是说触发的语句是在插入订单记录之后才执

2014-09-28 16:28:25 2905

转载 mysql之触发器trigger

mysql之触发器trigger触发器(trigger):监视某种情况,并触发某种操作。触发器创建语法四要素:1.监视地点(table) 2.监视事件(insert/update/delete) 3.触发时间(after/before) 4.触发事件(insert/update/delete)语法:create trigger triggerNameafter/before

2014-09-28 16:22:21 405

转载 MySQL数据导出

mysql导出数据方法一:SELECT...INTO OUTFILEmysql> select * from mytbl into outfile '/tmp/mytbl.txt';Query OK, 3 rows affected (0.00 sec)查看mytbl.txt中内容如下:mysql> system cat /tmp/mytbl.txt1       na

2014-09-26 17:19:24 501

转载 FTP,HTTP各种端口号

FTP,HTTP等各种端口号FTP,HTTPFTP的端口是 21 SSH (Secure Shell)服务使用tcp 22 端口TELNET 23 端口DHCP server的端口号是67 MAIL 的端口号是25\110 pop3\smtp 的端口号是 110/25 DNS 的端口号是 53HTTP通信用的端口号是80SMMP:性能测试标准方法

2014-09-26 16:57:29 10234

转载 Mysql 存储过程

MySQL存储过程 14.1.1 创建存储过程MySQL中,创建存储过程的基本形式如下:CREATE PROCEDURE sp_name ([proc_parameter[,...]])          [characteristic ...] routine_body 其中,sp_name参数是存储过程的名称;proc_parameter表示存储过程的参数列

2014-09-26 16:42:46 466

转载 Process.waitFor()的返回值含义

以下是Linux中返回值对照表"OS error code   1:  Operation not permitted""OS error code   2:  No such file or directory""OS error code   3:  No such process""OS error code   4:  Interrupted system call"

2014-09-11 16:33:31 15957

转载 #hive_正则表达式#JAVA的正则表达式案例详解

如果你曾经用过Perl或任何其他内建正则表达式支持的语言,你一定知道用正则表达式处理文本和匹配模式是多么简单。如果你不熟悉这个术语,那么“正则表达式”(Regular Expression)就是一个字符构成的串,它定义了一个用来搜索匹配字符串的模式。许多语言,包括Perl、PHP、Python、JavaScript和JScript,都支持用正则表达式处理文本,一些文本编辑器用正则表

2014-09-04 10:32:35 1608

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除