- 博客(14)
- 资源 (1)
- 收藏
- 关注
原创 一键让所有服务器执行相同命令
平时服务器多的时候难免会让多台服务器执行相同命令,当然了,可以用一些shell工具,可是如果有一百台服务器就会开一百个窗口,这.....,下面是用脚本实现这个功能(ssh免密是通的),也可以用别的工具实现,迫于着急用,以后再研究。直接打开文本编辑器输入以下内容:#!/bin/sh doCommand(){ hosts=`sed -n '/^[^#]/p' hostli...
2020-04-15 17:10:16
945
原创 Flink 入门以及了解
**Flink 入门以及了解官网: https://flink.apache.org/flink-applications.html**介绍Apache Flink 是一个框架和分布式处理引擎,用于在无边界和有边界数据流上进行有状态的计算。Flink 能在所有常见集群环境中运行,基于流执行引擎,Flink提供了诸多更高抽象层的API以便用户编写分布式任务。基本组件Streams(流是...
2019-09-16 23:43:49
188
原创 浅谈 Hbase 以及 Rowkey设计
1. Hbase 基础--------------------------------------------------定义:分布式、多版本、面向列的开源数据库,支持上亿行,百万列,可扩展的,对大数据的随机,实时读/写的数据库。核心概念: Table ==> 同传统数据库中的表是类似的,不同之处是它是基于SchemaLess 的设计,比传统数据库更加灵活。 rowk...
2019-03-13 19:17:54
351
原创 Spark hIstory and Spark on yarn 配置及使用
sprk on yarn 概述及使用 (0)spark 资源管理 G3-平头哥 Spark...
2018-08-26 17:02:30
710
原创 spark2.3.1 源码编译详解
1. 前置要求(地址我给也贴下来,方便大家快速上手) 注意:我个人的环境是centos6.5,编译的是 spark-2.3.1-bin-2.6.0-cdh5.7.5 版本:scala 2.11.8 -- maven 3.3.9 -- java 1.8 -- spark 2.3.1 -- hadoop 2.6.0-cdh5.7.5 安装 apache-maven-3.3.9(或者...
2018-08-26 02:08:22
1300
2
原创 hive2.0的LLAP特性及DPC-H数据性能测试测试
1. hive2.x新功能及 LLap 特性介绍 1. (对于hive的介绍我就不多说了) hive 2.1 发布后增加了许多新功能,官网里面提到了以下几点(翻译):使用Hive LLAP进行交互式查询。 LLAP在Hive 2.0中引入,在Hive 2.1中进行了改进,使其性能比Hive 1提高了25倍强大的SQL ACID支持,拥有60多个稳定性修复程序。2x通过更智能的CBO实现更...
2018-05-15 11:44:12
9254
原创 CDH全搭建过程
声明:本搭建用的是 CentOs 6.5 Linux 服务1. ssh 配置 (1).挑选一台服务器,在.ssh 目录下面 ssh-keygen -t rsa 回车下去 把生成的id_rsa.pub 通过scp 发到其他机器,然后其他机器 重命名为authorized_keys (2).在其他机器上 ssh-keygen -t rsa 回车下去,把生成的id_rsa.pub 通过s...
2018-03-24 15:31:35
1865
转载 java 8 新特性
目录结构介绍Java语言的新特性2.1 Lambdas表达式与Functional接口2.2 接口的默认与静态方法2.3 方法引用2.4 重复注解2.5 更好的类型推测机制2.6 扩展注解的支持Java编译器的新特性3.1 参数名字Java 类库的新特性4.1 Optional4.2 Streams4.3 Date/Time API (JSR 310)4.4 JavaScript引擎Nashorn...
2018-03-20 10:35:52
210
原创 spark 内存管理(1.6前后)
一:Memory ManagerStaticMemoryManager 和 UnifiedMemoryManagerStaticMemoryManager1.6版本之前的内存管理概念上,内存空间被分成了三块独立的区域,每块区域的内存容量是按照JVM堆大小的固定比例进行分配的:Execution:在执行shuffle、join、sort和aggregation时,用于缓存中间数据。通过spark.s...
2018-03-02 15:58:45
645
转载 hdfa NM 高可用的实现
Hadoop NameNode 高可用 (High Availability) 实现解析WeiboGoogle+用电子邮件发送本页面 1转载自这里NameNode 高可用整体架构概述在 Hadoop 1.0 时代,Hadoop 的两大核心组件 HDFS NameNode 和 JobTracker 都存在着单点问题,这其中以 NameNode 的单点问题尤为严重。因为 NameNode 保存了整个 ...
2018-03-01 16:02:49
478
转载 spark 参数调优指南
前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据
2018-02-01 11:00:06
279
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人