
大数据
文章平均质量分 88
浩海紫冰
c爱好者。时间
展开
-
hive 常用函数
max(e.max_inc_rank) over(partition by e.mid) max_inc_rank_for_row -- 升序的最大值存放在每一行。,sum(1) over(partition by mid,num1 ) as acc_by_mid_num1 -- 每个mid重复进入播放计数。,if(d.max_num=d.num,d.in_out_time_rank,0) as max_inc_rank -- 升序的最大值。主要背景是想看下现在“共享账号”的用户量级有多少。原创 2023-10-01 18:09:41 · 956 阅读 · 0 评论 -
spark SQL 任务参数调优1
要了解spark参数调优,首先需要清楚一部分背景资料Spark SQL的执行原理,方便理解各种参数对任务的具体影响。一条SQL语句生成执行引擎可识别的程序,解析(Parser)、优化(Optimizer)、执行(Execution) 三大过程。其中Spark SQL 解析和优化如下图Parser模块:未解析的逻辑计划,将SparkSql字符串解析为一个抽象语法树/AST。语法检查,不涉及表名字段。原创 2023-10-01 18:04:19 · 2884 阅读 · 1 评论 -
spark ui 指南
注意看到stage 19-24 是 跳过了, 原因是spark shuffle 的数据会写到磁盘固化,当上游当上游stage(19-24)和之前执行过的stage 相同时,可以直接用之前的结果.正在运行中的任务有 thread dump ,跟踪task 的执行过程, 目前只能点开 driver 的节点, executor 节点 点击不开.每个状态的stage 数量 (active, pending, completed, skipped, failed)原创 2023-10-01 17:59:46 · 3253 阅读 · 0 评论 -
ck 计算留存
clickhouse 计算留存原创 2023-10-01 17:48:35 · 314 阅读 · 0 评论 -
阿里笔试sql
1.假定你当前有两张淘宝交易订单表order和sub_oder,存储于hive环境,其表结构信息如下,一个订单ID下可能多个子订单,一个子订单代表一个买家在一个卖家购买的一种商品,可能购买多件,整个支付金额是在主订单上。 create table order( order_id bigint --订单ID ,sub_order_id bigint --子订单ID ,seller_id bigint --卖家ID ...原创 2021-10-28 21:46:25 · 725 阅读 · 0 评论 -
数据仓库笔试题-pdd
题目:商品活动表 goods_activity,字段id主键、goods_id 商品id,act_id 活动id,create_time 活动创建时间 、status 上线状态2 上线 ,3 下线问题一、每个活动的每个商品 的开始时间和结束时间?问题二、假设数据中有脏数据,同一个活动可能 两次上线,也可能两次结束,需要把活动上线重复的状态按照时间取第一条,结束上线状态重复的按时间取最后一条。-- 第一题:-- id,goods_id,act_id,create_time-- asdf3..原创 2020-10-20 23:41:15 · 1621 阅读 · 0 评论 -
大数据开发 之 留存类统计写法
问题:统计活跃用户的近7天、30天留存率?这个是数据仓库开发同学基本都会遇到的问题,属于留存类问题,实现方式也有很多种类,但是在大数据场景下的效率差距很大,因此整理自己写过四种输出留存的方式和对比下优劣。原创 2020-09-13 17:06:43 · 1290 阅读 · 0 评论 -
spark sql 异常
1.spark SQL 测试过程中报如下错误org.apache.spark.sql.AnalysisException--20/08/25 11:42:08 INFO Client: resolveAppExceptionMsg, msg start20/08/25 11:42:08 INFO Client: resolveAppExceptionMsg, msg:User class threw exception: org.apache.spark.sql.AnalysisExce...原创 2020-08-25 13:18:37 · 1560 阅读 · 0 评论 -
Mapreduce 教程-翻译
Mapreduce 教程--大数据基本功一.mapreduce概念mapreduce定义:是hadoop的处理层,将整个任务拆分成各个独立的子任务并行处理的大规模数据编程模型。整个任务被用户提交到master主节点上然后被拆分成子任务并分配给各个从节点。mapreduce编程模型是函数式构造的类型风格。1.1了解mapreduce了解hadoop的mapreduce从以下几个问题入手,hadoop看起来像什么,what,why and mapreduce 怎样工作...原创 2020-07-27 00:38:33 · 430 阅读 · 0 评论 -
hive SQL
1.假定你当前有两张淘宝交易订单表order和sub_oder,存储于hive环境,其表结构信息如下,一个订单ID下可能多个子订单,一个子订单代表一个买家在一个卖家购买的一种商品,可能购买多件,整个支付金额是在主订单上。 create table order( order_id bigint --订单ID ,sub_order_id bigint --子订单ID ,seller_id bigint --卖家ID ...原创 2020-06-24 10:24:53 · 731 阅读 · 0 评论 -
倾斜join优化 Skewed Join
翻译:倾斜join优化设计 https://issues.apache.org/jira/browse/SPARK-295441.背景数据倾斜是数据表在集群中分区之间分布不均匀导致的。数据倾斜会严重降低查询性能,特别实在join的场景下。在集群中,大表之间join需要shuffling并且数据倾斜会导致任务极端不平衡的运行。有三个主要的方法处理skew join:1.增加任务的并行数,使用spark.sql.shuffle.partition参数,让数据分布均匀2.使用广播hash j...原创 2020-06-23 00:33:12 · 2024 阅读 · 0 评论 -
文章标题
k-means 聚类 hadoop 思路原创 2017-11-09 10:49:22 · 317 阅读 · 0 评论 -
k-means 聚类hadoop 平台
1. k-means 聚类hadoop 平台 思路 1.1 在参考了 《数据算法-hadoop 、spark 》 289 页;文章 Research on Parallel k-means Algorithm Design Based on Hadoop Platform 基于云计算平台Hadoop的并行k-means聚类算法设计研究;http:/原创 2017-11-09 10:29:30 · 549 阅读 · 0 评论 -
欢迎使用优快云-markdown编辑器
k-means 聚类hadoop 平台1.1 在参考了 《数据算法-hadoop 、spark 》 289 页;文章 Research on Parallel k-means Algorithm Design Based on Hadoop Platform 基于云计算平台Hadoop的并行k-means聚类算法设计研究;http://blog.youkuaiyun.com/kgh原创 2017-11-09 10:32:20 · 286 阅读 · 0 评论