G3-平头哥-优快云博客

转载通过数据库客户端界面工具DBeaver连接Hive

客户端界面工具DBeaver连接Hive

2022-09-18 17:23:35 845

原创一键让所有服务器执行相同命令

平时服务器多的时候难免会让多台服务器执行相同命令，当然了，可以用一些shell工具，可是如果有一百台服务器就会开一百个窗口，这.....，下面是用脚本实现这个功能（ssh免密是通的），也可以用别的工具实现，迫于着急用，以后再研究。直接打开文本编辑器输入以下内容:#!/bin/sh doCommand(){ hosts=`sed -n '/^[^#]/p' hostli...

2020-04-15 17:10:16 945

原创 Flink 入门以及了解

**Flink 入门以及了解官网： https://flink.apache.org/flink-applications.html**介绍Apache Flink 是一个框架和分布式处理引擎，用于在无边界和有边界数据流上进行有状态的计算。Flink 能在所有常见集群环境中运行，基于流执行引擎，Flink提供了诸多更高抽象层的API以便用户编写分布式任务。基本组件Streams(流是...

2019-09-16 23:43:49 188

原创浅谈 Hbase 以及 Rowkey设计

1. Hbase 基础--------------------------------------------------定义:分布式、多版本、面向列的开源数据库，支持上亿行，百万列，可扩展的，对大数据的随机，实时读/写的数据库。核心概念: Table ==> 同传统数据库中的表是类似的，不同之处是它是基于SchemaLess 的设计，比传统数据库更加灵活。 rowk...

2019-03-13 19:17:54 351

原创 Spark hIstory and Spark on yarn 配置及使用

sprk on yarn 概述及使用 (0)spark 资源管理 G3-平头哥 Spark...

2018-08-26 17:02:30 710

原创 spark2.3.1 源码编译详解

1. 前置要求（地址我给也贴下来，方便大家快速上手）注意:我个人的环境是centos6.5,编译的是 spark-2.3.1-bin-2.6.0-cdh5.7.5 版本:scala 2.11.8 -- maven 3.3.9 -- java 1.8 -- spark 2.3.1 -- hadoop 2.6.0-cdh5.7.5 安装 apache-maven-3.3.9(或者...

2018-08-26 02:08:22 1300 2

原创 hive2.0的LLAP特性及DPC-H数据性能测试测试

1. hive2.x新功能及 LLap 特性介绍 1. (对于hive的介绍我就不多说了) hive 2.1 发布后增加了许多新功能，官网里面提到了以下几点(翻译):使用Hive LLAP进行交互式查询。 LLAP在Hive 2.0中引入，在Hive 2.1中进行了改进，使其性能比Hive 1提高了25倍强大的SQL ACID支持，拥有60多个稳定性修复程序。2x通过更智能的CBO实现更...

2018-05-15 11:44:12 9254

原创 CDH全搭建过程

声明：本搭建用的是 CentOs 6.5 Linux 服务1. ssh 配置 (1).挑选一台服务器，在.ssh 目录下面 ssh-keygen -t rsa 回车下去把生成的id_rsa.pub 通过scp 发到其他机器，然后其他机器重命名为authorized_keys (2).在其他机器上 ssh-keygen -t rsa 回车下去，把生成的id_rsa.pub 通过s...

2018-03-24 15:31:35 1865

目录结构介绍Java语言的新特性2.1 Lambdas表达式与Functional接口2.2 接口的默认与静态方法2.3 方法引用2.4 重复注解2.5 更好的类型推测机制2.6 扩展注解的支持Java编译器的新特性3.1 参数名字Java 类库的新特性4.1 Optional4.2 Streams4.3 Date/Time API (JSR 310)4.4 JavaScript引擎Nashorn...

2018-03-20 10:35:52 210

原创 spark 内存管理(1.6前后)

一：Memory ManagerStaticMemoryManager 和 UnifiedMemoryManagerStaticMemoryManager1.6版本之前的内存管理概念上，内存空间被分成了三块独立的区域，每块区域的内存容量是按照JVM堆大小的固定比例进行分配的：Execution：在执行shuffle、join、sort和aggregation时，用于缓存中间数据。通过spark.s...

2018-03-02 15:58:45 645

转载 hdfa NM 高可用的实现

Hadoop NameNode 高可用 (High Availability) 实现解析WeiboGoogle+用电子邮件发送本页面 1转载自这里NameNode 高可用整体架构概述在 Hadoop 1.0 时代，Hadoop 的两大核心组件 HDFS NameNode 和 JobTracker 都存在着单点问题，这其中以 NameNode 的单点问题尤为严重。因为 NameNode 保存了整个 ...

2018-03-01 16:02:49 478

转载 spark 参数调优指南

前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后，本文作为《Spark性能优化指南》的高级篇，将深入分析数据倾斜调优与shuffle调优，以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。数据倾斜调优，就是使用各种技术方案解决不同类型的数据

2018-02-01 11:00:06 279

zilianxiaozhu的博客

原创 Linux查找java class类所在jar包

转载通过数据库客户端界面工具DBeaver连接Hive

原创 Kafka基础知识