- 博客(69)
- 资源 (4)
- 收藏
- 关注
原创 Apache Beam编译&运行Demo
ApacheBeam源码变异# 调整下build.gradle// mavenCentral()maven { url 'http://maven.aliyun.com/nexus/content/groups/public/'}# 编译spark-runner ./gradlew beam-runners-spark:buildgradle命令学习./gradlew tasks...
2019-04-09 19:18:39
1300
原创 Spark Streaming 基于Yarn集群提交任务疑惑
参考项目: https://github.com/LiShuMing/spark-demos疑惑一、Spark提交任务依赖包问题?使用Spark打jar包是个比较头疼的问题: * 不能包冗余的依赖(比如hadoop/hbase)放到jar包里,有可能导致运行环境污染; * 不能太少:如果缺少必要的jar包,则会抛NoClassFoundException;所以,在使用场...
2018-05-17 10:52:29
1349
原创 Spark支持kerberos环境下的Kafka、Hbase传输
一、准备环境: 创建Kafka Topic和HBase表1. 在kerberos环境下创建Kafka Topic1.1 因为kafka默认使用的协议为PLAINTEXT,在kerberos环境下需要变更其通信协议: 在${KAFKA_HOME}/config/producer.properties和config/consumer.properties下添加security.pr...
2018-05-14 19:46:32
2590
原创 Yarn下CGroups对CPU限制的理解
好奇Yarn CGroup限制是怎么样对CPU做限制的?CGroup对CPU的限制cpushares隔离: 给我们提供了一种可以按权重比率弹性分配cpu时间资源的手段;当cpu空闲的时候,某一个要占用cpu的cgroup可以完全占用剩余cpu时间,充分利用资源。而当其他cgroup需要占用的时候,每个cgroup都能保证其最低占用时间比率,达到资源隔离的效果。cpuset隔...
2018-04-25 20:00:06
1749
原创 Java环境下编译支持Debian/Centos系统安装镜像
项目需要编译镜像安装,现在梳理下在Debian/Centos系统下编译可安装镜像的方法。在项目中配置pom.xml如下,支持deb/centos系统: <plugins> <plugin> <groupId>org.codehaus.mojo</groupId> ...
2018-04-20 11:43:05
585
原创 NameNode JVM配置详解
NameNode JVM配置详解线上NameNode JVM如下/home/hadoop/java-current/bin/java-Dhadoop.log.dir=/mnt/dfs/5/hdfs/logs-Dhadoop.log.file=hadoop.log-Dhadoop.home.dir=/home/hadoop/hdfs-2.7.3-Dhadoop.id.str=r...
2018-04-20 11:27:08
2410
1
原创 在Hive表中支持HBase操作
非Kerberos环境环境部署将HBase Master/lib下的一下jar包复制到到hiveserver/lib下:root@hzadg-mammut-platform7:/usr/ndp/current/hive_server2/lib/hive-jars# ls -alhtotal 14Mdrwxr-xr-x 2 root root 4.0K Apr 20 ...
2018-04-20 11:24:18
327
原创 Zookeeper服务开启jmx通过jconsole进行监控
配置在./bin/zkServer.sh中添加开启jmx的命令如下:if [ "x$JMXLOCALONLY" = "x" ]then JMXLOCALONLY=falsefiif [ "x$JMXDISABLE" = "x" ]then echo "JMX enabled by default" >&2 # for some reaso
2018-03-30 17:01:47
2155
原创 在github/gitlab上打一个pull的patch
梳理比如这样一个请求(Merge Request): https://github.com/apache/spark/commit/c68ec4e6a1ed9ea13345c7705ea60ff4df7aec7b在这个commit后面添加patch,并保存该patch文件 https://github.com/apache/spark/commit/c68ec4e6a1e...
2018-03-29 14:52:35
2351
原创 HBase Master启动认证kerberos失败&问题解决
1. 问题复原在kerberos环境下启动HBase时,包如下错误:2018-03-29 11:59:12,828 INFO [main-SendThread(hadoop2497.jd.163.org:2181)] zookeeper.ClientCnxn: Socket connection established to hadoop2497.jd.163.org/10.196.67...
2018-03-29 14:33:33
2466
原创 基于Ambari 滚动、快速升级实现调研(内源版本)
背景当前现状当前的Ambari自身仍然不支持版本的升级,所以下一个版本NDP-3.3.0该如何升级存在着疑问:比如说当前的NDP-3.2.0,如果猛犸上线新的的mammut 4.16对应的的NDP-3.3.0版本,该怎么操作?或者在NDP-3.3.0版本中做了hadoop从2.7.3到2.8.2的升级,这个时候该如何操作?尽管内部开发了支持包替换的升级方式,但该方法只能做...
2018-03-28 17:02:39
1294
原创 基于角色权限管理系统数据库表设计结构(常用电商客户管理后台)
表结构用户表 各种角色用户基本信息表:客户、店主、管理员均使用本表; +---------------------+-------------+------+-----+---------------------+-----------------------------+| Field | Type | Null | Key...
2018-03-28 16:41:45
7667
原创 Ambari日常运维操作命令收集
Ambari REST API查询相关获取集群配置信息:http://hzadg-mammut-platform1.server.163.org:8080/api/v1/clusters/cluster1?fields=Clusters/desired_configs特定配置信息(cluster-env):http://hzadg-mammut-platform1.server.163.o...
2018-03-28 16:35:41
1823
原创 Spark2.3.0之pyspark实现原理分析
背景 PySpark Performance Enhancements: [SPARK-22216][SPARK-21187] Significant improvements in python performance and interoperability by fast data serialization and vectorized execution.SPARK-222...
2018-03-06 16:15:18
2601
原创 Spark 2.3.0支持ORC Vectorized矢量化源码分析
Vectorized ORC Reader: [SPARK-16060] Adds support for new ORC reader that substantially improves the ORC scan throughput through vectorization (2-5x). To enable the reader, users can set spark.sql....
2018-03-05 22:22:32
3065
原创 Hive及Spark中Join中过滤下推优化分析
前言: 在Spark SQL中有一条PushPredicateThroughJoin优化规则,其原理是参考Hive中的Join规则完成的,具体参考本文的规则1/2。DefinitionsPreserved Row table: The table in an Outer Join that must return all rows. For left outer joins th...
2018-02-24 11:49:34
935
原创 Ambari之metainfo.xml详解
metainfo.xml定义了Ambari管理Service的一些配置内容,该文件对应Service定义起着至关重要的作用。结构一级结构 Field Usage Sample Values name service的名称,该名称必须保障在stack services中是唯一的 HDFS displayName 该servic...
2018-02-23 16:40:47
2026
原创 Ambari之自定义Stack和Service
背景 可以从/ambari-server/src/main/resources/stacks源码中查找Stack的相关定义; 当安装完ambari-server后,可以在/var/lib/ambari-server/resources/stacks目录下查找stack相关定义; Stack配置stack必须包含或者集成以下两个配置: stack_feature...
2018-02-23 16:40:10
2147
原创 Structured Streaming Programming Abstraction, Semantics, and APIs
介绍通过过去三年里部署、运维Spark Streaming的积累,我们在Catalyst和DataFrames的基础上重新架构了绰号为“Struct Streaming”的实时计算项目。语义我们提出来一个简单的模型“repeated queries(RQ)”。基于该模型用户可以从原静态表以及SQL/DataFrames的一些概念推广至Struct Streaming上。工作原理...
2018-02-23 16:38:39
363
原创 Facebook Spark 60TB Spark应用场景总结学习
可用性调优SPARK-13793 之前的PipedRDD实现容错性较差,只要发生fetch错误时,整个job就会失败,该PR改进了PipedRDD从而可以更优雅地处理fetch错误,使得job可以从失败中恢复;SPARK-13369 可配置最大fetch失败次数,对于长时间运行的服务,由于机器重启导致fetch失败的次数可能会显著增加,这里增加了一个可配置fetc...
2018-02-23 16:37:48
425
原创 Kafka常用命令整理
kinit 环境登录 kinit -kt /etc/security/keytabs/kafka.service.keytab kafka/hzadg-mammut-platform2.server.163.org@BDMS.163.COM; 基本操作./bin/kafka-console-producer.sh --broker-list 10.201.168.136...
2018-02-23 15:49:06
716
原创 [TODO]Kafka及Kafka Streaming架构熟悉
基本概念 名称 解释 Broker 消息中间件处理节点,一个Kafka节点就是一个broker,一个或者多个Broker可以组成一个Kafka集群 Topic Kafka根据topic对消息进行归类,发布到Kafka集群的每条消息都需要指定一个topic Producer 消息生产者,向Broker发送消息的客户端 Consumer ...
2018-02-23 15:45:09
4652
1
原创 关于Spark关注的一些问题
Issuesspark.storage.replication.proactive 针对RDD,开启block proactive(主动)复制机制: 当Cached RDD在executor处理上失败时,如果有可用复制集则可以恢复过来,恢复至replica factor的数量;spark.storage.replication.topologyMapperspar...
2018-02-23 15:39:49
414
原创 Pyhon源码编译安装
下载版本python下载源码python2.7.11安装(记得要下载python 2.7版本的),下载地址:http://www.python.org/download/安装步骤为(python 2.7的安装对是否能成功安装skyeye有决定性作用):编译注意:没有这个两个编译选项,你会发现有无穷无尽的错误在等着你解决,不过我仍然相信你乐于去解决。 ./config...
2018-02-23 15:33:29
361
原创 [TODO]HBase及Phoenix环境熟悉
HBaseHLogSnapShot参考: http://www.cnblogs.com/cenyuhai/p/3712943.html写入/读取CompactionFiltershbase(main):075:0>show_filtersColumnPrefixFilterTimestampsFilterPageFilterMultip...
2018-02-23 15:31:48
452
原创 Ambari Metrics基于源码编译使用
编译(2.4.2)参考:https://cwiki.apache.org/confluence/display/AMBARI/Installation+Guide+for+Ambari+2.4.2wget http://www.apache.org/dist/ambari/ambari-2.4.2/apache-ambari-2.4.2-src.tar.gz (use the sugg...
2018-02-23 15:24:13
554
原创 HDFS Federation基于Ambari部署安装(调研文档)
一、 HDFS Federation架构* 在有Federation之前的HDFS架构NameSpace层: 管理路径、文件以及blocks的关系,同时支持文件系统的操作比如mkdir/put/get等; BlockStorage层: - Block Management: 维护Datanode中存储的映射关系,主要是支持block层的创建、删除、修改及副本的放置等; - Phy...
2018-02-23 15:18:43
1625
1
原创 [WIP] 大数据技术博客收藏
技术博客July结构之法、算法之道:http://blog.youkuaiyun.com/v_july_vdocker:https://www.docker.com刘未鹏: http://mindhacks.cnhttps://coolshell.cn/featuredhttp://dancres.github.io/Pages/http://blog.youkuaiyun.com/bluishglcS...
2018-02-23 15:04:04
580
原创 Spark HiveThriftServer2启动流程源码分析
本文从Beeline连接HiveThriftServer2开始,梳理下执行SQL的流程。分析借助重载方法,将原本执行在Hive上的任务,转变成SparkSession.sql()操作的。
2017-05-06 17:30:08
4237
1
原创 Spark On YARN启动流程源码分析
1. Spark On Yarn启动 ApplicationMaster;2. Sparn On Yarn启动 Executor;3. Spark On Yarn真实运行Driver/ApplicationMaster/Exector日志;
2017-05-06 13:43:03
3353
3
原创 Ubuntu14.04 下安装配置php5和nginx问题解决
1. 尝试了源码编译php5.3 configure install;2. 尝试了手动编译添加php-gd;3. 因为apt-get install php5有很多问题,尝试着这种方式安装;因为时间太晚了,就把浏览的网页放到这里,等有时间了再细细总结#在stackflow上,跟我遇到的问题一样,不过没有解决方案http://stackoverflow.com/q
2015-08-06 00:11:45
888
原创 【leetcode刷题】栈的方式先序二叉树
问题:5.1.1 Binary Tree Preorder Traversal描述Given a binary tree, return the preorder traversal of its nodes’ values.For example: Given binary tree{1,#,2,3},1\2/3
2014-08-29 17:03:30
752
原创 操作系统学习之进程通信(PCI)
MMIO(Memory mapping I/O)即内存映射I/O,它是PCI规范的一部分,I/O设备被放置在内存空间而不是I/O空间。从处理器的角度看,内存映射I/O后系统设备访问起来和内存一样。这样访问AGP/PCI-E显卡上的帧缓存,BIOS,PCI设备就可以使用读写内存一样的汇编指令完成,简化了程序设计的难度和接口的复杂性。I/O作为CPU和外设交流的一个渠道,主要分为两种,一种是P
2014-05-25 20:29:38
1463
转载 vim下注释多行或重复操作的学习
今天在调试一个小脚本时想要注掉几行代码,:(. how?刚接触shell, vim, 还没习惯其思考方式。google了一下,最简单的就是vim中的查找替换了。 比如注释掉10到20行::10,20s/^/^#/g 又想起来以前看过vim里有个录制宏的功能,温习了一下,步骤如下。将光标移至想要注释掉的第一行行首->ESC->qa->i->#->ESC->j->q
2014-05-21 23:12:46
1260
转载 Chrome插件的学习入门
参考网页:http://www.ituring.com.cn/article/60134我们准备编写一款显示用户计算机当前时间的扩展,这应该比Hello World有趣得多。设计思路是在浏览器的工具栏中显示一个时钟的图标,当用户点击这个图标时显示一个实时显示计算机时间的界面。首先新建一个名为my_clock的文件夹,在此文件夹中新建一个名为manifest.json的文件,内容如下:
2014-05-21 23:06:17
925
Professional Java Server Programming( j2Ee Edition)
2013-06-09
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人