Shaw_Bigdata-优快云博客

原创 Spark 内存管理机制

如果堆外内存被启用，那么 Executor 内将同时存在堆内和堆外内存，两者的使用互补影响，这个时候 Executor 中的 Execution 内存是堆内的 Execution 内存和堆外的 Execution 内存之和，同理，Storage 内存也一样。通过以上介绍可知，应用程序申请到资源量可能大于资源申请的资源量，比如YARN的最小可申请资源内存量为1024，规整因子是1024，如果一个应用程序申请1500内存，则会得到2048内存，如果规整因子是512，则得到1536内存。

2024-11-29 18:00:11 1573

原创数据仓库-数据模型建设方法总结（全）

数据建模、数据仓库

2023-01-29 14:58:40 4800

原创 java jvm gc 回收机制和原理

java;jvm;gc;垃圾回收

2022-02-11 15:21:53 2465

原创 spark参数调优

spark调优、大数据调优、spark优化

2022-02-09 17:24:52 831

原创 airflow安装部署(python)

在线安装Airflow组件版本:Python 3.7.2Apache airflow 1.10.1Mysql 5.7.24CentOs7.8Python安装Centos7中，Python默认是安装的，输入python 直接可以查看版本号，入下图注意: 如果本机安装了python2，尽量不要管它，使用python3运行python脚本就好，因为可能有程序依赖目前的python2环境，比如yum！不要动现有的python2环境！安装python3依赖命令：.

2020-05-24 21:48:43 4083 1

原创 Elasticsearch等同八大全能型的数据产品对比

Elasticseach从做搜索引擎开始，到现在主攻大数据分析领域，逐步进化成了一个全能型的数据产品，在Elasticsearch诸多优秀的功能中，与很多数据产品有越来越多的交叉竞争，有的功能很有特色，有的功能只是附带，了解这些产品特点有助于更好的应用于业务需求。1、LuceneLucene是一个搜索的核心库，Elastic也是在Lucene基础之上构建，它们之间的竞争关系是由Luce...

2020-05-08 09:47:08 5083 2

原创谈flink实时流处理

背景:数据量激增传统的时代，不同的业务场景都有大量的业务数据产生，对于这些不断产生的数据应该如何进行有效地处理，成为当下大多数公司所面临的问题。但随着数据的不断增长，新技术的不断发展，人们逐渐意识到对实时数据处理的重要性，企业需要能够同时支持高吞吐、低延迟、高性能的流处理技术来处理日益增长的数据。相对于传统的数据处理模式，流式数据处理则有着更高的处理效率和成本控制。Apache F...

2020-04-23 09:48:00 1659

原创大数据架构体系(数据仓库)

1、传统大数据架构优点缺点使用场景简单，易懂，对于BI系统来说，基本思想没有发生变化，变化的仅仅是技术选型，用大数据架构替换掉BI的组件 1、没有BI下如此完备的Cube架构，虽然目前有kylin，但是kylin的局限性非常明显，远远没有BI下的Cube的灵活度和稳定度，因此对业务支撑的灵活...

2020-03-20 16:07:11 2604

原创有效管理项目团队

1.了解团队对自己的项目团队有充分的了解，这是服务团队的前提。2.善于倾听对于项目经理来说，善于倾听是最明智的做法。项目经理作为管理者要经常认真倾听团队成员的意见、想法，并善于正面引导。引导团队这或许就是通常大家说的「管理团队」，不过两者还是有所区别的。「引导团队」是为了防止团队走错方向，「管理团队」是强迫团队一定要走在正确的道路上。前者有自我成长属性，团队的成长伴...

2020-03-16 10:41:35 306

原创项目团队绩效

从企业、组织的角度来看，团队绩效是以团队的项目绩效作为基础。从项目立项开始如何预评估，在面对项目过程中各种情况是否需要奖惩，以及在结项时的最终评价，都需要针对不同行业、不同企业文化进行客制化分析。实施绩效考核包括三个层面的含义：1、绩效考核是从企业经营目标出发对员工工作进行考评，并使考评以及考评之后的人力资源待遇管理，推动企业经营目标的实现；2、绩效考核是人力资源管理系统的组成部分...

2020-03-13 09:26:48 458

原创规划项目成本

对于一个项目来说，能否做好成本管控也是判断项目成功与否的一个重要标准。想要在批准的预算内完成项目，需要对成本进行规划，同时做好估算、预算、融资、筹资、管理和控制的各个过程，从而确保项目在批准的预算内完工。简单的概括这个过程，就是规划成本、估算成本、制定预算和控制成本。首先，我们先要了解成本的范围。成本的范围其实就是我们项目的范围，也包含了整个项目需要完成的所有活动和动作，那 WBS...

2020-03-12 10:42:09 394

原创项目启动会

1、项目启动会项目启动会是一个非常重要的里程碑事件、意味着我们完成了对项目可行性研究和分析。同时获得组织授权进入规划阶段，并且会逐步增加相关资源推动项目实施。...

2020-03-12 10:32:21 4818

原创 javaAPI-Hbase异步之批量高效写入数据

package cn.ngsoc.hbase.util; import org.apache.commons.lang.StringUtils;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.*;import org.apache.hadoop.hbase.client.*;impor...

2018-07-26 15:56:46 6990

原创 linux查看系统信息命令

系统# uname -a # 查看内核/操作系统/CPU信息# head -n 1 /etc/issue # 查看操作系统版本# cat /proc/cpuinfo # 查看CPU信息# hostname # 查看计算机名# lspci -tv # 列出所有PCI设备# lsusb -tv ...

2018-07-09 14:17:24 265

转载 Spring框架之 Spring AOP理论基础

一、Spring AOP是什么？ AOP（Aspect-Oriented Programming），被译为“面向切面编程”，是通过预编译的方式或运行时动态代理方法（详见：《Spring框架之代理模式》）实现业务中的扩展功能。AOP与OOP两种编程思想共同帮助开发者管理对象之间的数据结构（详见：《Spring框架之 Spring理论基础》），因此常有人说AOP是OOP思想的一种扩充。 ...

2018-02-26 10:21:05 206

原创基于ambari搭建hadoop生态圈大数据组件

Apache Ambari是一种基于Web的工具，支持Apache Hadoop集群的供应、管理和监控。Ambari已支持大多数Hadoop组件，包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeper、Sqoop和Hcatalog等。

2018-01-22 14:18:42 14245 2

原创 windows环境下java开发连接linux环境的hbase数据获取CURD

单节点集群测试初始化连接/** * * 操作hbase数据库简单查询例子 * Created by wan on 17-11-7. */public class HbaseTest {public static Configuration conf; static { conf = HBaseConfiguration.c

2017-11-07 12:30:18 954

原创 mule使用案例企业服务总线ESB案例activeMQ转换成xml

企业服务总线mule，esb简单例子介绍，学习过程分享。网上例子介绍，建议可以先看看官方文档。

2017-11-01 11:40:41 1251

原创 filebeat接入数据kafka

官方最新下载filebeat https://www.elastic.co/products/beatstar -zxvf filebeat-5.5.2-linux-x86_64.tar.gzcd filebeat-5.5.2-linux-x86_64filebeat主要是对配置文件filebeat.yml 进行修改#==============

2017-09-06 17:14:02 1545

原创 spark-1.2.0 集群环境搭建(完整一套)

spark-1.2.0 集群环境搭建(sprak集群依赖hadoop至上，用的是分布式APACHE系统HDFS)（此处搭建承接文档hadoop搭建，服务地址一样需要修改配置,下面附链接）一、安装jdk(1.7)------查看hadoop环境配置文件里面的jdk配置(一样)二、ssh免验证---------查看hadoop环境配置文件里面的ssh免验证(一样)

2017-08-20 10:26:50 496

原创 elasticsearch集群快速上手搭建

集群搭建ElasticSearch的集群我还是以elasticsearch-2.3.1版本为例。在开始集群搭建之前，我先给大家一点建议，在看elasticsearch-2.3.1的配置文件之前，先看elasticsearch低版本的配置文件，例如：1.6，因为低版本的配置文件的英文解释比较多，而且比较透彻，学习更加简单。下面我们来搭建一个简单的集群。下载es 链接(http://d

2017-08-19 16:20:33 359

原创 kafka集群搭建和参数详细解析

kafka集群搭建，配置参数详细，快速完成，并且附带检测

2017-08-19 11:58:25 718

原创 hive、mysql搭建(简洁明了5分钟完全搞定)

五、hive的安装(不同版本的hadoop尽量找相对应hive版本)1、下载hive安装包---apache-hive-1.1.1-bin.tar2、解压安装到opt下面 tar -zxvf apache-hive-1.1.1-bin.tar -C ~/opt/3、配置环境变量sudo gedit /etc/profile在下面增加export

2017-08-19 08:36:06 2172

原创 hadoop2.6.0搭建(简洁明了10分钟完全搞定)

hadoop2.6环境搭建1,准备环境:虚拟机hadoop01，修改ip地址master (192.168.111.10)slaves1(192.168.111.11) slave2192.168.111.12) 2,修改主机名字sudo gedit /etc/hostname(三个主机都要该)一、安装jdk(1.7) 注意:jdk版本必须要和系统

2017-08-06 10:15:12 1461 1

原创 Linux查看物理CPU个数、核数、逻辑CPU个数

2017-08-06 09:53:49 404

原创 Spark调优 Spark Jobs 性能调优

调试资源分配Spark 的用户邮件邮件列表中经常会出现 “我有一个500个节点的集群，为什么但是我的应用一次只有两个 task 在执行”，鉴于 Spark 控制资源使用的参数的数量，这些问题不应该出现。但是在本章中，你将学会压榨出你集群的每一分资源。推荐的配置将根据不同的集群管理系统（ YARN、Mesos、Spark Standalone）而有所不同，我们将主要集中在 YARN 上，

2017-08-04 14:22:51 550

原创 Spark On YARN部署模式下的内存分配情况

本文主要了解Spark On YARN部署模式下的内存分配情况，因为没有深入研究Spark的源代码，所以只能根据日志去看相关的源代码，从而了解“为什么会这样，为什么会那样”。说明按照Spark应用程序中的driver分布方式不同，Spark on YARN有两种模式： yarn-client模式、yarn-cluster模式。当在YARN上运行Spark作业，每个Spark

2017-08-02 11:30:13 921

原创 winlogbeat监听windows日志到kafka、hdfs,不同层级取数据

winlogbeat监听windows日志到kafka,查询kafka里面的topic数据,以及从kafka中接入数据到hdfs、logstash不同层级取数据,过滤message.

2017-07-10 16:51:05 7436 1

原创 logstash使用webhdfs插件指定输出字段存储数据到hdfs时间分层(还能保留原来数据)

基于项目新搭建环境-->部分工具版本hadoop 2.6.5 ;hive-1.2.1logstash 2.4.0; impala-2.8; elasticsesarch-5.4.1; spark-2.1.1; scala 2.12.2jdk1.8;kafka 2.10;redis-3.0.7;zookeeper-3.4正文：一个简单需求,就是通过

2017-07-07 09:57:02 2181