李白星河-优快云博客

企业级superset阿里云ESC搭建全流程详解你好！作为一名大数据猿来说。你可能会需要轻量级大数据bi工具superset来帮助你快速实现数据的可视化展示。那么我们以阿里云云服务器ESC举例，帮你清楚的了解到superset的安装流程基础环境介绍我们采用企业常用的服务器环境centos6.9：需要python环境切换工具miniconde第三代产品安装路径:(https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.s

2020-11-19 17:18:24 1172 2

原创 Oozie的工作流调度

设置oozie工作流调度workflowCoordinatorbundleworkflow.xmljob.properties内容：nameNode=hdfs://hadoop01:9000 --客户端连接hdfs集群jobTracker=hadoop01:8032 --客户端连接yarn集群queueName=default --调度队列filePath=/gp1819/oozie --oozie的根目录oozie.use.system.libpath=true –oozie.lib

2020-06-02 15:01:42 363

原创 FAILED: SemanticException org.apache.hadoop.hive.ql.metadata.HiveException: java.lang.RuntimeExcepti

查看mysql-connector-java-5.1.38.jar是否放到了所有节点的hive/lib目录下

2020-04-26 13:00:13 322

原创 hadoopHa集群namenode起不来的原因（1）

保错2020-03-22 22:00:51,467 ERROR org.apache.hadoop.hdfs.server.namenode.NameNode: Failed to start namenode.org.apache.hadoop.hdfs.server.common.InconsistentFSStateException: Directory /export/servers...

2020-04-25 22:22:24 942

原创 RDD和sparksql的求分组topN

RDD16、计算出每个地区的地点人数最多的前3名？studentRDD.map(line => (line._4,line._7.toInt)).groupByKey().map(line => {(line._1, line.2.toList.sortWith( > _).take(3)) //按照降序进行排列}).collect().foreach(println...

2020-04-24 09:59:44 319

原创将kafka中的数据消费到mysql的两种方式

方式一package demo01import java.sql.{Connection, DriverManager, PreparedStatement}import java.text.SimpleDateFormatimport org.apache.kafka.clients.consumer.{ConsumerConfig, ConsumerRecord}import or...

2020-04-23 21:11:59 6482

原创 Txt文本传数据到Kafka的两种方式

方式一自定义合并分区类import org.apache.kafka.clients.producer.KafkaProducer;import org.apache.kafka.clients.producer.Producer;import org.apache.kafka.clients.producer.ProducerRecord;import java.io.Buffere...

2020-04-23 21:07:07 2108

原创 java和scala，RDD方式，MR的方式过滤txt文本中的数据

JAVA方式过滤数据package demo01;import java.io.*;public class show01 { private static String filename1; private static String filename2; public static void main(String[] args) { filename1=...

2020-04-23 20:54:03 546

原创 Spring/Spring Boot 整合 Mybatis + Phoenix

Spring + Mybatis + Phoenix2.1 项目结构2.2 主要依赖除了 Spring 相关依赖外，还需要导入 phoenix-core 和对应的 Mybatis 依赖包<dependency> <groupId>org.mybatis</groupId> <art...

2020-04-08 09:38:17 587

原创 Kafka中steamAPi操作

/*用于实现将一个topic的数据读取后从转换成大写，再将结果写入另一个topic*/public class StreamAPI {public static void main(String[] args) { Properties props = new Properties(); //设置程序的唯一标识 props.put(StreamsConfig.APP...

2020-04-01 10:41:40 377

原创自学yarn部分知识点汇总

1、什么是Yarn通用资源管理系统和调度平台2、Yarn特点：1、支持多计算框架2、资源利用率高，运行成本低，数据共享。3、Yarn的意义：降低了企业硬件的成本（多个集群变成一个集群），减少了资源的了浪费，运营成本低。4、Yarn基本组成ResourceManager ：一个集群资源调度的管理者NodeManager ：一个节点资源调度的管理者（集群各个节点资源的工作者）...

2020-04-01 10:00:04 227

原创 Scala 中的foreach和map方法比较

Scala中的集合对象都有foreach和map两个方法。两个方法的共同点在于：都是用于遍历集合对象，并对每一项执行指定的方法。而两者的差异在于：foreach无返回值（准确说返回void）,map返回集合对象。见如下代码及运行结果：b.getClass 得到的是void, 而c.getClass得到的是colletion 。再看代码的第9-11行，foreach和map的运行结果一致。结论就是：...

2020-03-31 11:10:43 214

原创自学kafka部分知识点汇总

（Kafka阶段）简答题：1、Kafka生态系统四大角色，生产者(Producer)、kafka集群(Broker)、消费者(Consumer)、zookeeper2、每个消费者都必须属于一个消费组，一个组内的消费者可以多个。3、一个Topic可以有1到多个多个分区（Partition）4、一个分区可以有1到多个segment。5、每个segment可以有由一个log和一个index组...

2020-03-30 20:51:45 588

原创自学Redis部分知识点汇总

（Redis部分）简答题1、什么是redis？Redis是一个基于内存的使用c语言编写的key-value开源的nosql数据库2、Redis持久化数据的方式有哪些？1》PDB触发式持久化++每秒钟触发一次3、解决IT行业数据读取瓶颈的终极方案？读写分离4、Redis如何实现读写分离？Redis本身支持读写分离，主节点可以读写数据、从节点只能读数据。配置redis的主从复制结构可实现...

2020-03-30 19:37:16 333

原创 yarn常用概念知识点汇总

问题一：集群提交任务，是什么决定任务分配到哪个节点上？Yarn（RM,NM）问题二：集群提交任务，偶尔成功，偶尔失败（使用外部配置文件）？答：程序所需要的数据（配置文件）缺失。有的节点缺失，有的节点不缺失。解决：在所有的节点上存一份程序所需要的数据（配置文件）是谁来分配的呢？答案：YarnResourceManager：一个集群只有一个ResourceManager对外提供服务（可...

2020-03-30 10:20:46 571

原创 Scala40道例题与答案

set集合(1-10)1、定义一个不可变set集合a，保存以下元素：10,20,30,10,50,40(1)var a = Set(10,20,30,10,50,40)2、获取a集合的大小(1)Println(a.size)3、遍历a集合a.foreach(i => println(i))4、a集合删除元素50println(a - 50)5、a集合拼接set集合Set(6...

2020-03-30 10:08:56 3901 2

原创 scala常用需要导包操作（实用版）

-------------------可变集合-------------------------可变集合不可变集的创建方式一致，只不过需要提前导入一个可变集类。手动导入：import scala.collection.mutable.Set--------------------可变map------------------------定义语法与不可变Map一致。但定义可变Map需要手动导...

2020-03-30 08:28:15 1084 1

原创 KafKa常用JavaApi10道例题（送答案）

以下kafka集群的节点分别是node01,node02,node031、在kafka集群中创建student主题副本为2个，分区为3个生产者设置：设置key的序列化为 org.apache.kafka.common.serialization. StringSerializer设置value的序列化为org.apache.kafka.common.serialization.Stri...

2020-03-29 09:43:13 300

原创 linux常用命令汇总（程序员必备）

Linux命令我是小白，我从来没玩过Linux,请点这里：http://www.runoob.com/linux/Linux-intro.html推荐的一个Git仓库我有些基础，推荐一个快速查询命令的手册，请点这里：https://github.com/jaywcjlove/linux-command必须学会的命令1.man和page1.内部命令：echo查看内部命令帮助：h...

2020-03-23 11:22:02 327

原创 kafka-eagle报错500异常解决文档

1.停止kafkaEagle 进程cd /export/servers/kafka-eagle-bin-1.3.2/kafka-eagle-web-1.3.2/bin./ke.sh stop2.修改kafkaEagle的启动脚本： bin/ke.sh注释掉下面的几行内容：# rm -rf $KE_HOME/kms/webapps/ke# rm -rf $KE_...

2020-03-20 17:22:56 1608 2

原创 screen关闭会话（详解版）

[root@localhost ~]# screen -lsThere are screens on:9975.pts-0.localhost (Detached)4588.pts-3.localhost (Detached)2 Sockets in /var/run/screen/S-root.[root@localhost ~]# screen -X -S 4588 quit[ro...

2020-02-06 09:25:56 6655

原创 HbaseApi

通过startRowKey和endRowKey进行扫描/*** 通过startRowKey和endRowKey进行扫描查询*/public static void scanrowkey() throws IOException{Configuration conf=new Configuration();conf.set(“hbase.zookeeper.quorum”,“node0...

2020-01-06 16:59:25 286

原创离线大数据项目流程

建表、数据导入语句总结textfile格式create table 表名( a string , b string )row format delimited fields terminated by "指定分隔符"stored as textfile;load data local inpath '本地路径' into table '表名'orc格式create table...

2020-01-03 18:16:38 312

原创 java系统增加查找算法详解

题干数学老师小y 想写一个成绩查询系统，包含如下指令：insert [name] [score]，向系统中插入一条信息，表示名字为name的学生的数学成绩为score。find [name]，表示查找名字为name的学生的数学成绩。注意有些同学可能会为了刷分多次选课，查询的时候给出最大成绩即可。学生的名字是由小写字母组成。成绩是一个 0 \ldots 1000…100 的整数。老师找到你...

2019-12-26 11:52:22 341

原创 Hive如何drop删除外部表，如何恢复表中数据

1.创建以前的表结构2.恢复数据：MSCK REPAIR TABLE networkqualityinfo;H

2019-12-25 10:36:03 2130

原创 Linux基础指令（详解版）

Linux介绍：特点：开源、免费、自由使用；多用户、多线程、多任务、多CPU。组成：Linux = 内核 + shell + 文件系统 + 应用程序应用：服务器、手机操作系统...... 分支：Redhat、debain...... 安装：VMware、centOS6.4 基本环境配置(root)1.修改主机名查...

2019-12-09 20:45:27 2427 3

原创 mapReduce之间的partition的作用详解

map/reduce之间的shuffle，partition，combiner过程的详解Shuffle的本意是洗牌、混乱的意思，类似于java中的Collections.shuffle(List)方法，它会随机地打乱参数list里的元素顺序。MapReduce中的Shuffle过程。所谓Shuffle过程可以大致的理解成：怎样把map task的输出结果有效地传送到reduce输入端。也可以这样...

2019-11-28 14:54:39 2148 1

原创 HDFS如何查看文本内容

1.查看指定行数的文本hdfs dfs -cat /aaaaa/空白文本.txt | shuf -n 52.查看指定头数的文本hdfs dfs -cat /aaaaa/空白文本.txt | head -1003.查看指定尾数的文本hdfs dfs -cat /aaaaa/空白文本.txt | tail-1004.查看文本行数hdfs dfs -cat /path/txt | wc -...

2019-11-25 11:03:02 3854

原创 Intellij_idea连接虚拟机操作

1.在Intellij_idea上面点击如下菜单：Tools—Deployment—Configuration…[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-AtQptkk9-1574429667152)(C:\Users\张泰\AppData\Roaming\Typora\typora-user-images\1574426492614.png)]2.新增一台...

2019-11-22 21:35:08 1004

原创 Hive知识点总结（简明版）

hive知识点总结一、hive介绍hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。Metastore （hive元数据）Hive将元数据存储在数据库中，比如mysql ,derby.Hive中的元数据包括表的名称，表的列和分区及其属性，表的数据所在的目录Hive数据存...

2019-11-22 11:47:06 592

FSCapture工具压缩包

非常简单的截图小软件，可以添加水平印，也可以对图像进行简单处理。是一款非常实用的截图以及图像处理捕捉软件，如果您正需要不如没事下载这款FSCapture使用吧。功能介绍　　取色器　　现在网上各式各样的取色器应该不少了，包括之前一直用的蓝色经典推荐的ColorSPY ， Firefox 下还有一个专门的取色器扩展ColorZilla ，这些都是很好的软件。但自从使用了FS Capture 之后，这些我都很少用到了。原因很简单，各种取色软件的功能都大同小异，FS Capture 非常小巧，既然有这样一个小软件能够包含取色器、屏幕放大镜和截屏的功能，为什么还要为这些功能而分开多个软件呢。FastStone Capture 的取色支持RGB 、Dec 和Hex 三种格式的色值，而且还有一个混色器，取到颜色之后可以再编辑。　　屏幕放大镜　　这确实是一个不错的功能，特别是现在我们已经习惯用DIV 来对页面定位，DIV 之间的对齐不像表格那样容易控制，有时为了调整几个象素的偏差，不得不对着屏幕盯很久。有这样一个放大镜就方便多了。使用时只需点击一下FS Capture 窗口上的放大镜图标，鼠标变成一个放大镜的样子，然后在需要放大的地方按下左键就可以了，就像手里真的拿着一个放大镜一样。可以设置放大倍律，放大镜的尺寸，外观(圆形，矩形以及圆角矩形)以及是否平滑显示，按ESC 键或单击右键可退出放大镜。　　屏幕录像机　　屏幕录像机功能可以录制屏幕动作，将窗口/对象、矩形区域或全屏区域的屏幕录制为高清晰 WMV 视频。　　截屏　　包括了全屏截取，当前活动窗口截取，截取选定区域，多边形截取和截取滚动页面等，基本上常用的都有了。特别是滚动截取，许多朋友为了这个功能不惜安装各种重量级的截屏软件，甚至四处下载各种软件的破解器—— 忘了说了，FS Capturte 是一款免费软件! 　　图像浏览/ 编辑　　FS Capture 还包括快速浏览/ 编辑图像的功能，可以点击主窗口的“ 打开” 图标快速打开一幅图片，进行简单的缩放、裁切、旋转、加文字等轻量级的操作。把网页中图片拖到FS Capture 的窗口上，会快速打开图像浏览窗口。

2019-02-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人