大数据_Brad_Q1的博客-优快云博客

大数据

关注

文章平均质量分 79

关注数：文章数：9 文章阅读量：13222 文章收藏量：26

作者: Brad_Q1

这个作者很懒，什么都没留下…

展开

hive中cube, grouping sets, grouping__id应用

hive 中grouping sets, grouping__id以及cube的具体应用及案例

原创 2022-07-16 08:08:02 · 1099 阅读 · 0 评论
linux通过yum安装mysql踩到的坑

mysql安装遇到的坑

原创 2022-05-13 15:07:15 · 495 阅读 · 0 评论
解决hadoop 安装could only be replicated to 0 nodes, instead of 1

老夫初学Hadoop，安装之后从上传数据就开始出幺蛾子开始安装的时候，什么问题都没有，检查连接端口http://master:50070以及http://master:8088都好好的啊，那么开始从本地开始往hdfs上面传数据呗上面这个错误，百度了好久，大概解决办法都比较统一删除数据存储文件夹，一般网上放到的是/tmp/dfs下面反正我放的是用户名所在文件下面的bigdat...

原创 2019-02-16 19:31:24 · 461 阅读 · 0 评论
Spark SQL Dataset 常用API 一

主要介绍以及记录Spark SQL中常用的API

原创 2019-02-17 10:33:55 · 845 阅读 · 0 评论
Spark SQL Dataset 常用API 二

TransformationUntyped API前面一篇写了SELECT这个API的一些主要用法，本文打算通过一个SQL示例来展开讲述下Dataset其他常用的Untyped API，比如filter(类似于where),join,groupby 等等。首先，描述下大概的需求：表一，描述了一家五口人，有名字，年龄和性别，先在mysql中建表，并且插入数据create table if ...

原创 2019-02-17 13:56:36 · 353 阅读 · 0 评论
spark streaming编程模型【更新中】

spark streaming是准实时的一种流处理手段，其中核心在于较短时间间隔内持续运行。其中主要包含以下几个模块，streaming context数据接收器(Reciever)DStreamTransform数据转换处理模块应用启动start下面详细说明其中每一项...

原创 2019-02-28 07:28:19 · 552 阅读 · 0 评论
Hive中数据倾斜解决实例

Hive中数据倾斜的表面原因可能各种各样，但是底层都是一个Reducer的节点计算压力过大，造成某一个节点一直在运算造成的。今天运行SQL的时候，遇到了一次，分享下（由于数据使用公司数据，表名都重新换过，数据量保持不变）表名信息如下，假设有两张表:tmp_user，数据量：267772tmp_user_log,数据量：5,617,310,131初始SQL如下： SELECT /*...

原创 2019-02-18 19:17:34 · 789 阅读 · 0 评论
SparkStreaming滑动计算窗口reduceByKeyAndWindow图解说明

对于reduceByKeyAndWindow(_ + _, _ - _,Second(45), Second(5))这种算法不太明白的同学可以参考下，下图是通过个人理解所画，希望对大家理解这个函数有所帮助：首先，说一下需求，就是每隔5秒，计算过去45秒内的X数量。第一个窗口（第一个45s内,时间点1）里面的X数量是17个，然后时间往后移动了5秒，变成了时间点2。图中，在时间滑动后，新增了5个...

原创 2019-03-03 10:31:48 · 624 阅读 · 0 评论
hive使用beeline连接遇到的问题

hiveserver2未启动如果hiveserver2未启动就直接使用beeline连接，会出现如下错误：Error: Could not open client transport with JDBC Uri: jdbc:hive2://master:10000/default: java.net.ConnectException: Connection refused (Connectio...

原创 2019-03-24 09:17:25 · 8005 阅读 · 0 评论

大数据

作者: Brad_Q1

hive中cube, grouping sets, grouping__id应用

linux通过yum安装mysql踩到的坑

解决hadoop 安装could only be replicated to 0 nodes, instead of 1

Spark SQL Dataset 常用API 一

Spark SQL Dataset 常用API 二

spark streaming编程模型【更新中】

Hive中数据倾斜解决实例

SparkStreaming滑动计算窗口reduceByKeyAndWindow图解说明

hive使用beeline连接遇到的问题