
大数据
文章平均质量分 59
Haven.Liu
龙七
展开
-
StarRocks|Doris业内工程实践整理
1、理想汽车 x StarRocks:为 Hive 数据查询插上极速之翼!https://www.modb.pro/db/3948982、阿里云强力贡献:如何让 StarRocks 做到极速数据湖分析https://www.modb.pro/db/3943353、众安保险 x StarRocks | 全新实时分析能力开启数字化经营新局面https://www.modb.pro/db/3912944、从ClickHouse到StarRocks,携程大住宿智能数据平台的应用https://w原创 2022-04-18 17:08:43 · 920 阅读 · 0 评论 -
优质大数据技术博文摘录
一、关于数据倾斜1、实战 | Hive 数据倾斜问题定位排查及解决_五分钟学大数据的技术博客_51CTO博客原创 2022-04-14 15:05:12 · 171 阅读 · 0 评论 -
JVM虚拟机相关知识
一、常用JDK监控和故障的处理工具命令 用途 jps 显示指定系统内所有的虚拟机进程 jstat 用于收集虚拟机各方面的运行数据 jinfo 显示虚拟机配置信息 jmap 生成虚拟机快照 jhat 用于分析heapdump文件,会建立一个http/html服务器,可以在浏览器上查看分析结果 jstack 显示虚拟机快照 二、常用 JVM 参数:参数 说明 -Xms 初始堆大小,默认为物理内存的1/64(&l原创 2022-04-12 16:32:25 · 1359 阅读 · 0 评论 -
Hive资源调优
一、OOMBuffer OOM堆栈溢出Caused by: java.lang.OutOfMemoryError: Java heap spaceat org.apache.hadoop.hive.serde2.WriteBuffers.nextBufferToWrite(WriteBuffers.java:261)at org.apache.hadoop.hive.serde2.WriteBuffers.write(WriteBuffers.java:237)at org.apache.h原创 2021-01-21 20:45:25 · 1037 阅读 · 1 评论 -
Hadoop命令汇总
一、hadoop fs 命令1、hadoop fs –fs [local | <file system URI>]:声明hadoop使用的文件系统,如果不声明的话,使用当前配置文件配置的,按如下顺序查找:hadoop jar里的hadoop-default.xml->$HADOOP_CONF_DIR下的hadoop-default.xml->$HADOOP_CONF_DIR下的hadoop-site.xml。使用local代表将本地文件系统作为hadoop的DFS。如果传递ur原创 2020-07-30 16:05:16 · 361 阅读 · 0 评论 -
Spark技术栈整理
一、当Spark on Hive时,Spark读不到hive的数据。刷新Spark的 缓存:REFRESH TABLE test.dws_d_driver原创 2020-07-28 20:46:27 · 802 阅读 · 0 评论 -
HiveSQL 整理
一、COALESCE() // [ˌkəʊəˈles]结合;联合COALESCE是一个函数, (expression_1, expression_2, ...,expression_n)依次参考各参数表达式 -- 遇到非null值即停止并返回该值。如果所有的表达式都是空值,最终将返回一个空值。使用场景:1)假如某个字段默认是null,你想其返回的不是null,而是比如0或其他值,可以使用这个函数SELECT COALESCE(field_name,0) as valu...原创 2020-07-21 11:25:38 · 1148 阅读 · 0 评论 -
Presto 整理
一、Presto SQL:(1) show CATALOGS; (2) show tables from hive.dwd; 查看数据库中所有的表原创 2020-07-13 16:00:08 · 278 阅读 · 0 评论 -
ClickHouse安装
一、按照官网步骤:https://clickhouse.tech/#quick-startCentOS:sudo yum install yum-utilssudo rpm --import https://repo.clickhouse.tech/CLICKHOUSE-KEY.GPGsudo yum-config-manager --add-repo https://repo.cl...原创 2020-04-26 23:14:16 · 390 阅读 · 0 评论 -
Azkaban 3.x 实战部署整理
一、Azkaban服务部署模式(1)solo-server模式使用的DB是azkaban包自带一个内嵌的H2库,Web Server和Executor Server运行在同一个进程里。这种模式包含Azkaban的所有特性,但一般用来学习和测试。(2)two-server模式DB使用的是MySQL,MySQL支持master-slave架构,Web Server和Execut...原创 2020-03-02 17:05:16 · 329 阅读 · 0 评论 -
GitHub:大数据生态架构【源码解读】汇总(按照GitHub的star排倒序)
一、Spark源码系列1、酷玩 Spark: Spark 源代码解析、Spark 类库等https://github.com/lw-lin/CoolplaySpark2、Spark源码剖析https://github.com/weibin0516/spark-sourcecodes-analysis3、spark ml 算法原理剖析以及具体的源码实现分析https:...原创 2019-12-05 15:02:59 · 545 阅读 · 0 评论 -
GItHub:【大数据实战项目】汇总
一、Spark1、《Spark 大型电商项目实战》* 用户访问session分析* 页面单跳转化率统计* 热门商品离线统计博客地址:http://blog.youkuaiyun.com/u012318074/article/category/6744423GitHub地址:https://github.com/Erik-ly/SprakProject2、基于spark stream...原创 2019-12-05 14:18:27 · 5633 阅读 · 0 评论