
hive
码基
码基
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
定期删除分区表数据
#!/bin/bashts=$(date +%s%3N)list="/tmp/table2drop"touch $listecho > $listdeclare -A tbl_retentiondbs=$(hive -S -e "show databases" | grep -i -v -e 'default' -e 'database_name' -e 'tmp')for db in $dbs; do tbls=$(hive -S -e "show tables in原创 2021-05-14 12:53:33 · 483 阅读 · 0 评论 -
sort group和hash group
说明:数据库的分组算法有两种,sort group和hash group。前者需要会所有数据进行全局排序,然后在迭代每一条记录时,凡是与上一条记录不一致的,就划分为一个新组。后者则是直接对分组列计算hash值,相同的值会被hash同一组。MapReduce编程中reduce端shuffle就是典型的sort group。貌似现在传统型数据库的分组,以及hive在map端分组都采用的是hash...原创 2019-07-09 13:04:29 · 1356 阅读 · 0 评论 -
hive 随机抽样 实用,有助于快速分析数据分布情况和可能的数据倾斜
Sampling Syntax 抽样语法Sampling Bucketized Table 分桶表抽样table_sample: TABLESAMPLE (BUCKET x OUT OF y [ON colname])The TABLESAMPLE clause allows the users to write queries for samples of the data instead...翻译 2019-07-06 10:13:58 · 1150 阅读 · 0 评论 -
大数据maven依赖管理
学习笔记<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="htt...原创 2019-06-13 21:32:04 · 478 阅读 · 3 评论 -
hive 留存率 计算
定义留存率:某天活跃用户,在之后几天是否活跃,一日留存率就是用户注册后第二天仍然活跃,以此类推,三日留存率,七日留存率。任务:计算某段时间内注册的用户的一日留存率,三日留存率和七日留存率。建表use default;show tables;create table register_tbl(user_id string,register_date string)row for...原创 2019-07-30 12:14:41 · 2548 阅读 · 0 评论 -
用excel生成建表语句
Sub createTable() Columns(1).ClearContents Dim tableCount As Integer Dim fieldCount As Integer Dim fields As String Dim eachFieldCount As Integer Dim dt As String Dim f A...原创 2019-08-30 10:09:34 · 1741 阅读 · 0 评论