- 博客(30)
- 资源 (11)
- 问答 (1)
- 收藏
- 关注
原创 Spark 内存管理机制
如果堆外内存被启用,那么 Executor 内将同时存在堆内和堆外内存,两者的使用互补影响,这个时候 Executor 中的 Execution 内存是堆内的 Execution 内存和堆外的 Execution 内存之和,同理,Storage 内存也一样。通过以上介绍可知,应用程序申请到资源量可能大于资源申请的资源量,比如YARN的最小可申请资源内存量为1024,规整因子是1024,如果一个应用程序申请1500内存,则会得到2048内存,如果规整因子是512,则得到1536内存。
2024-11-29 18:00:11
1325
原创 airflow安装部署(python)
在线安装Airflow组件版本:Python 3.7.2Apache airflow 1.10.1Mysql 5.7.24CentOs7.8Python安装Centos7中,Python默认是安装的,输入python 直接可以查看版本号,入下图注意: 如果本机安装了python2,尽量不要管它,使用python3运行python脚本就好,因为可能有程序依赖目前的python2环境,比如yum!不要动现有的python2环境!安装python3依赖命令:.
2020-05-24 21:48:43
3996
1
原创 Elasticsearch等同八大全能型的数据产品对比
Elasticseach从做搜索引擎开始,到现在主攻大数据分析领域,逐步进化成了一个全能型的数据产品,在Elasticsearch诸多优秀的功能中,与很多数据产品有越来越多的交叉竞争,有的功能很有特色,有的功能只是附带,了解这些产品特点有助于更好的应用于业务需求。1、LuceneLucene是一个搜索的核心库,Elastic也是在Lucene基础之上构建,它们之间的竞争关系是由Luce...
2020-05-08 09:47:08
4979
2
原创 谈flink实时流处理
背景:数据量激增传统的时代,不同的业务场景都有大量的业务数据产生,对于这些不断产生的数据应该如何进行有效地处理,成为当下大多数公司所面临的问题。但随着数据的不断增长,新技术的不断发展,人们逐渐意识到对实时数据处理的重要性,企业需要能够同时支持高吞吐、低延迟、高性能的流处理技术来处理日益增长的数据。相对于传统的数据处理模式,流式数据处理则有着更高的处理效率和成本控制。Apache F...
2020-04-23 09:48:00
1567
原创 大数据架构体系(数据仓库)
1、传统大数据架构 优点 缺点 使用场景 简单,易懂,对于BI系统来说,基本思想没有发生变化,变化的仅仅是技术选型,用大数据架构替换掉BI的组件 1、没有BI下如此完备的Cube架构,虽然目前有kylin,但是kylin的局限性非常明显,远远没有BI下的Cube的灵活度和稳定度,因此对业务支撑的灵活...
2020-03-20 16:07:11
2450
原创 有效管理项目团队
1.了解团队对自己的项目团队有充分的了解,这是服务团队的前提。2.善于倾听对于项目经理来说,善于倾听是最明智的做法。项目经理作为管理者要经常认真倾听团队成员的意见、想法,并善于正面引导。引导团队这或许就是通常大家说的「管理团队」,不过两者还是有所区别的。「引导团队」是为了防止团队走错方向,「管理团队」是强迫团队一定要走在正确的道路上。前者有自我成长属性,团队的成长伴...
2020-03-16 10:41:35
276
原创 项目团队绩效
从企业、组织的角度来看,团队绩效是以团队的项目绩效作为基础。从项目立项开始如何预评估,在面对项目过程中各种情况是否需要奖惩,以及在结项时的最终评价,都需要针对不同行业、不同企业文化进行客制化分析。实施绩效考核包括三个层面的含义:1、绩效考核是从企业经营目标出发对员工工作进行考评,并使考评以及考评之后的人力资源待遇管理,推动企业经营目标的实现;2、绩效考核是人力资源管理系统的组成部分...
2020-03-13 09:26:48
425
原创 规划项目成本
对于一个项目来说,能否做好成本管控也是判断项目成功与否的一个重要标准。想要在批准的预算内完成项目,需要对成本进行规划,同时做好估算、预算、融资、筹资、管理和控制的各个过程,从而确保项目在批准的预算内完工。简单的概括这个过程,就是规划成本、估算成本、制定预算和控制成本。首先,我们先要了解成本的范围。成本的范围其实就是我们项目的范围,也包含了整个项目需要完成的所有活动和动作,那 WBS...
2020-03-12 10:42:09
362
原创 项目启动会
1、项目启动会项目启动会是一个非常重要的里程碑事件、意味着我们完成了对项目可行性研究和分析。同时获得组织授权进入规划阶段,并且会逐步增加相关资源推动项目实施。...
2020-03-12 10:32:21
4717
原创 javaAPI-Hbase异步之批量高效写入数据
package cn.ngsoc.hbase.util; import org.apache.commons.lang.StringUtils;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.*;import org.apache.hadoop.hbase.client.*;impor...
2018-07-26 15:56:46
6936
原创 linux查看系统信息命令
系统# uname -a # 查看内核/操作系统/CPU信息# head -n 1 /etc/issue # 查看操作系统版本# cat /proc/cpuinfo # 查看CPU信息# hostname # 查看计算机名# lspci -tv # 列出所有PCI设备# lsusb -tv ...
2018-07-09 14:17:24
240
转载 Spring框架 之 Spring AOP理论基础
一、Spring AOP是什么? AOP(Aspect-Oriented Programming),被译为“面向切面编程”,是通过预编译的方式或运行时动态代理方法(详见:《Spring框架 之 代理模式》)实现业务中的扩展功能。AOP与OOP两种编程思想共同帮助开发者管理对象之间的数据结构(详见:《Spring框架 之 Spring理论基础》),因此常有人说AOP是OOP思想的一种扩充。 ...
2018-02-26 10:21:05
184
原创 基于ambari搭建hadoop生态圈大数据组件
Apache Ambari是一种基于Web的工具,支持Apache Hadoop集群的供应、管理和监控。Ambari已支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeper、Sqoop和Hcatalog等。
2018-01-22 14:18:42
14144
2
原创 windows环境下java开发连接linux环境的hbase数据获取CURD
单节点集群测试初始化连接/** * * 操作hbase数据库简单查询例子 * Created by wan on 17-11-7. */public class HbaseTest {public static Configuration conf; static { conf = HBaseConfiguration.c
2017-11-07 12:30:18
931
原创 mule使用案例企业服务总线ESB案例activeMQ转换成xml
企业服务总线mule,esb简单例子介绍,学习过程分享。网上例子介绍,建议可以先看看官方文档。
2017-11-01 11:40:41
1205
原创 filebeat接入数据kafka
官方最新下载filebeat https://www.elastic.co/products/beatstar -zxvf filebeat-5.5.2-linux-x86_64.tar.gzcd filebeat-5.5.2-linux-x86_64filebeat主要是对配置文件filebeat.yml 进行修改#==============
2017-09-06 17:14:02
1515
原创 spark-1.2.0 集群环境搭建(完整一套)
spark-1.2.0 集群环境搭建(sprak集群依赖hadoop至上,用的是分布式APACHE系统HDFS)(此处搭建承接文档hadoop搭建,服务地址一样需要修改配置,下面附链接)一、安装jdk(1.7)------查看hadoop环境配置文件里面的jdk配置(一样)二、ssh免验证---------查看hadoop环境配置文件里面的ssh免验证(一样)
2017-08-20 10:26:50
470
原创 elasticsearch集群快速上手搭建
集群搭建ElasticSearch的集群我还是以elasticsearch-2.3.1版本为例。在开始集群搭建之前,我先给大家一点建议,在看elasticsearch-2.3.1的配置文件之前,先看elasticsearch低版本的配置文件,例如:1.6,因为低版本的配置文件的英文解释比较多,而且比较透彻,学习更加简单。下面我们来搭建一个简单的集群。下载es 链接(http://d
2017-08-19 16:20:33
326
原创 hive、mysql搭建(简洁明了5分钟完全搞定)
五、hive的安装(不同版本的hadoop尽量找相对应hive版本)1、下载hive安装包---apache-hive-1.1.1-bin.tar2、解压安装到opt下面 tar -zxvf apache-hive-1.1.1-bin.tar -C ~/opt/3、配置环境变量sudo gedit /etc/profile在下面增加export
2017-08-19 08:36:06
2120
原创 hadoop2.6.0搭建(简洁明了10分钟完全搞定)
hadoop2.6环境搭建1,准备环境:虚拟机hadoop01,修改ip地址master (192.168.111.10)slaves1(192.168.111.11) slave2192.168.111.12) 2,修改主机名字sudo gedit /etc/hostname(三个主机都要该)一、安装jdk(1.7) 注意:jdk版本必须要和系统
2017-08-06 10:15:12
1429
1
原创 Linux查看物理CPU个数、核数、逻辑CPU个数
# 总核数 = 物理CPU个数 X 每颗物理CPU的核数 # 总逻辑CPU数 = 物理CPU个数 X 每颗物理CPU的核数 X 超线程数 # 查看物理CPU个数 cat /proc/cpuinfo| grep "physical id"| sort| uniq| wc -l # 查看每个物理CPU中core的个数(即核数) cat /proc/cpuinfo|
2017-08-06 09:53:49
383
原创 Spark调优 Spark Jobs 性能调优
调试资源分配Spark 的用户邮件邮件列表中经常会出现 “我有一个500个节点的集群,为什么但是我的应用一次只有两个 task 在执行”,鉴于 Spark 控制资源使用的参数的数量,这些问题不应该出现。但是在本章中,你将学会压榨出你集群的每一分资源。推荐的配置将根据不同的集群管理系统( YARN、Mesos、Spark Standalone)而有所不同,我们将主要集中在 YARN 上,
2017-08-04 14:22:51
521
原创 Spark On YARN部署模式下的内存分配情况
本文主要了解Spark On YARN部署模式下的内存分配情况,因为没有深入研究Spark的源代码,所以只能根据日志去看相关的源代码,从而了解“为什么会这样,为什么会那样”。说明按照Spark应用程序中的driver分布方式不同,Spark on YARN有两种模式: yarn-client模式、yarn-cluster模式。当在YARN上运行Spark作业,每个Spark
2017-08-02 11:30:13
893
原创 winlogbeat监听windows日志到kafka、hdfs,不同层级取数据
winlogbeat监听windows日志到kafka,查询kafka里面的topic数据,以及从kafka中接入数据到hdfs、logstash不同层级取数据,过滤message.
2017-07-10 16:51:05
7354
1
原创 logstash使用webhdfs插件指定输出字段存储数据到hdfs时间分层(还能保留原来数据)
基于项目新搭建环境-->部分工具版本hadoop 2.6.5 ;hive-1.2.1logstash 2.4.0; impala-2.8; elasticsesarch-5.4.1; spark-2.1.1; scala 2.12.2jdk1.8;kafka 2.10;redis-3.0.7;zookeeper-3.4正文:一个简单需求,就是通过
2017-07-07 09:57:02
2148
原创 logstash传输自定义字段数据到hdfs进行分年月日分区,并且hive可以通过hiveQL快速查询数据
logstash传输自定义字段数据到hdfs进行分年月日分区,并且hive可以通过hiveQL快速查询数据,附带代码
2017-07-06 16:27:26
3302
1
解析sql对应中目标表对应的引用表(python)
2023-01-29
python3.7、python、脚本开发、windows开发、python安装工具
2023-01-17
jdk1.8工具、windows的jdk版本、java开发工具、jre、jdk
2023-01-17
dolphinscheduler、调度平台工具、监控工具、大数据监控、数据调度、小海豚、开源调度平台、页面化调度工具
2023-01-17
CDH6安装包、大数据平台管理工具、大数据、hadoop、CDH6.2
2023-01-17
python基于spark开发插件库、用于离线安装,在线安装都行
2020-05-27
hive on spark执行语句异常请求回答-
2017-08-03
TA创建的收藏夹 TA关注的收藏夹
TA关注的人