dhdsfg30201010-优快云博客

转载 SQL,case ziduan when ziduan_value then 'result'

case a.sex when 0 then '女' when 1 then '男' else '其他' end as sex当a表的性别字段的value为0时将查询的value转换成 '女'，当字段value为1的时候转换为 '男'，如果value不为0或者1那则转换为 '其它' end结束，并且将字段名称纪为sex转载于:https://www.cnblogs.com/Big...

2019-09-29 09:38:00 201

转载 springboot进入html

话不多说，转载https://blog.youkuaiyun.com/sinat_33889619/article/details/78339042这个博客写的真好转载于:https://www.cnblogs.com/BigDataBugKing/p/11478738.html

2019-09-06 23:00:00 138

转载 HbaseShell启动

找到hbase目录进入bin目录./hbase shell成功转载于:https://www.cnblogs.com/BigDataBugKing/p/11444931.html

2019-09-02 09:54:00 482

转载 IDEA中GitLab的使用

　　首先安装githttps://git-scm.com/downloads/下载对应的版本　　下载好了，安装打开Windows. 打开之后2步走，与git连接首先选择仓库，进行git init本地建立，然后配置你的名字与邮箱git config --global user.name “用户名”，git config --global user.email...

2019-08-30 17:19:00 258

转载 Jackson version is too old 2.xx

我使用的是IDEA，很简单。切换到project,如果下面的module版本是2.65,上面的jackson.core.xx小于2.65就会报old,如果高于2.65就会报不兼容。所以调整成相同的即可我去我的仓库把它调整成相同的了。就没有问题了。之后又出现了这个玩意java.lang.NoClassDefFoundError: scala/collection...

2019-08-23 12:42:00 334

转载第四天入职--

　　昨天第三天没干什么实事（就是一直在测试新的加载方法，最后发现不行，scala的map不能套map，不能引入外部变量添加数据，否则都会被无效化处理），一直困扰了我的有个问题,就是spark不能过滤Mysql拉取的数据，只要有Null的就不可以，使用" ",null,isEmplty都试过了，都是不行。所以我最后没有办法了只好去mysql里用sql清空了null字段　　今天的任务...

2019-08-22 18:55:00 109

转载第二天入职

2019/8/20 10:11我收回我昨天说很闲的话，昨天可是把我累死了，今天早上终于搞出来了，使用的是rdd和集合，rdd的每一项并发去匹配,集合中的hash中的集合的每一项如果存在就将hash中的key给rdd的每一项之后返回了一个utils我觉得很有趣，现在我想做的就是把目前的utils更新到mysql数据库中。但是我太高兴了，我就找他给我安排任务，有点后悔，他让我...

2019-08-21 14:20:00 114

转载入职第一天

　时间：2019/8/19 10:52　　查看数据，第一次使用presto，用的我不知所措，一顿疯狂试探。　　查个表一直没查出来，感觉很搞笑，和Mysql不同，他没有use,如果需要查表的话　　需要select * from 数据库.表limit 10(打个比方),以及查询完成后既然还需要退出。　　我就在想退出是啥，查了半天，也没查到，最后还是自己试出来了，也不想l...

2019-08-19 13:20:00 147

转载 Hive优化面试题

对待像我这种2年开发经验的同学一般都会被问到。在面试中，我们只要简短的介绍就好了。首先低调一波，我可能懂的比你少，我就简单说说1.在排序中，我们使用的是sortBy,它是基于索引，效率高于order by2.我们在分区的时候采用静态分区，静态分区只是读取配置文件，而动态分区需要重复的读取其它分区的标识，大量的制造了不必要的开销3.在对待groupBy的数据倾斜的方面...

2019-08-06 21:24:00 1468

转载 IDEA开发、测试、生产环境pom配置及使用

pom文件一般放在最下面,project里   <profiles> <profile> <id>dev</id> <activation>...

2019-08-01 11:05:00 597

转载 kudu集群高可用搭建

首先咱得有KUDU安装包这里就不提供直接下载地址了（因为有5G，我的服务器网卡只有4M，你们下的很慢）这里使用的是CDH版本官方下载地址http://archive.cloudera.com/cdh5/我这里有3个节点node01,node02,node03。这里上传到node03中这里与imapa做整合了，绿色的为整合部分可以不看首先上传到/...

2019-07-29 19:30:00 575

转载 SparkSql 整合 Hive

　　　　SparkSql整合Hive需要Hive的元数据，hive的元数据存储在Mysql里，sparkSql替换了yarn,不需要启动yarn，需要启动hdfs首先你得有hive,然后你得有spark,如果是高可用hadoop还得有zookeeper,还得有dfs(hadoop中的)我这里有3台节点node01,node02,node03ps：DATEDIFF(A,B)...

2019-07-25 20:07:00 138

转载 SparkStreaming 整合kafka Demo

这里使用的是低级API，因为高级API非常不好用，需要繁琐的配置，也不够自动化，却和低级API的效果一样，所以这里以低级API做演示你得有zookeeper和kafka我这里是3台节点主机架构图与高级API的区别,简单并行(不需要创造多个输入流，它会自动并行读取kafka的数据)，高效（不会像receiver数据被copy两次),一次性语义（缺点：无法使用zoo...

2019-07-23 18:49:00 139

转载 SparkStreaming整合flume

SparkStreaming整合flume在实际开发中push会丢数据，因为push是由flume将数据发给程序，程序出错，丢失数据。所以不会使用不做讲解，这里讲解poll，拉去flume的数据，保证数据不丢失。1.首先你得有flume比如你有：【如果没有请走这篇：搭建flume集群(待定）】这里使用的flume的版本是apache1.6 cdh公司集成这里需要下载...

2019-07-22 23:37:00 136

转载 SparkStreaming wordCountDemo基础案例

体现sparkStreaming的秒级准实时性，所以我们需要一个能够持续输入数据的东东1.CentOS上下载nc创建一个scala工程,导入相关pom依赖<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" ...

2019-07-22 19:27:00 169

转载 SparkStreaming和storm的区别

这是2种不同的架构。他们的区别是SparkStreaming的吞吐量非常高，秒级准实时处理，Storm是容错性非常高，毫秒级实时处理解释：sparkStreaming是一次处理某个间隔的数据，比如5秒内的数据，批量处理，所以吞吐量高。Storm是来一条处理一条，所以速度快，不存在丢失数据应用场景：对于数据非常重要不能丢失数据的，不能有延迟的，比如股票，金融之类场景的使...

2019-07-22 16:46:00 223

转载 IDEA设置默认WorkingDirectory

转载于:https://www.cnblogs.com/BigDataBugKing/p/11219386.html

2019-07-20 21:38:00 715

转载 IDEA安装Scala

Scala的安装使用scala必须有jdkwindows下开发工具的安装(我这里使用的是IDEA)打开IDE进入这个页面，如果没有进入这个界面,而直接进入项目的话请点击https://blog.youkuaiyun.com/Gnd15732625435/article/details/81182078.点击configure的Plugin...

2019-07-13 18:43:00 123

转载 HBase集群搭建

HBase集群搭建上传解压（1）上传hbase安装包,这里使用的是1.3.1点击这里下载hbase-1.3.1-bin.tar.gz上传到/export/software文件夹下(没有文件夹,自己创建mkdir /export/software,之后的就不在赘述)（2）解压tar -zxvf /export/software/hbase...

2019-07-11 18:55:00 92

转载 Kafka集群搭建

KafKa的集群搭建准备3台虚拟机192.168.140.128 kafka01192.168.140.129 kafka02192.168.140.130 kafka03初始化环境这里使用的是root账户　　1）需要安装jdk、zookeeperJdk的安装请点击这里(待补充)Zookeeper的安装请点击这里（待补充）　　...

2019-07-10 20:36:00 137