hongtaq156136-优快云博客

原创大数据权限授权管理框架：Apache Sentry和Ranger

大数据权限授权管理框架：Apache Sentry和Ranger文章目录前言Sentry和Ranger的概述SentrySentry的架构模型Sentry与Hadoop生态圈组件的集成RangerRanger的架构模型Ranger的策略配置对于用户的ACL控制表的行过滤及列处理Ranger的Policy的灵活性引用前言上篇文章后半部分提到了业界流行的大数据权限管理框...

2019-04-23 16:02:38 1245

原创多方安全计算

http://www.ctoutiao.com/933238.html

2019-04-12 20:45:50 982

转载零知识证明详解一：同态隐藏

简介：本文翻译自zcash官方博客，讲解zcash中所使用的zk-SNARKs的原理第一章节，此处是原文链接。友情提示：本系列文章偏技术化，适合对技术和数学非常感兴趣的同学阅读。zkSNARK是zero-knowledge succint non-interactive arguments of knowledge的简称，意思是：简洁的非交互式的零知识证明。(本文授权BH好文好报群摘编、...

2019-04-03 17:55:27 1735

转载 Zcash是这样用零知识证明的

简介：之前我翻译了zcash官方关于零知识证明讲解的一系列文章，但以我个人的经验来看，我们还需要这篇文章，才能真正理解零知识证明。这篇文章也是翻译自Zcash官方的一篇介绍zk-SNARKs的文章，原文在这里。这篇文章可以让我们知道Zcash用zk-SNARKs实现了哪些内容，我们可以通过这篇文章，更加明白zk-SNARKs的脉络。以下是正文翻译：什么是zk-SNARKsZcash是zk...

2019-04-03 17:53:24 1505

转载 HBase实战 | 58HBase平台实践和应用-平台建设篇

摘要：HBase是一个基于Hadoop的分布式、面向列的Key-Value存储系统，可以对需要实时读写、随机访问大规模数据集的场景提供高可靠、高性能的服务，在大数据相关领域应用广泛。HBase可以对数据进行透明的切分，使得存储和计算本身具有良好的水平扩展性。HBase是一个基于Hadoop的分布式、面向列的Key-Value存储系统，可以对需要实时读写、随机访问大规模数据集的场景提供高可靠、...

2019-04-02 19:23:58 1007

转载为CDH 5.7集群添加Kerberos身份验证及Sentry权限控制

4. 为CDH 5集群添加Kerberos身份验证4.1 安装sentry1、点击“操作”，“添加服务”；2、选择sentry，并“继续”；3、选择一组依赖关系4、确认新服务的主机分配5、配置存储数据库；　　在mysql中创建对应用户和数据库： 1 2 3 mysql>create database sentryde...

2019-03-05 17:45:15 743

转载大数据应用安全研究报告

一、阿里云大数据安全实践阿里云数加大数据平台提供从数据采集，加工、数据分析、机器学习到最后数据应用的全链路技术和服务。基于阿里云数加大数据平台，除了可以打造智能可视化透明工厂、智能交通实时预测和实时监控监测、智能医院就医接诊服务，以及大数据网络安全态势感知系统外，还可以打造成一个满足政府不同部门以及政企之间实现数据共享的数据交换平台。为了保障数据共享和交换过程中的数据安全，数家大数据平...

2019-03-04 11:23:33 6014

转载 Spark面对OOM问题的解决方法及优化总结

转载请保持完整性并注明来源链接：http://blog.youkuaiyun.com/yhb315279058/article/details/51035631Spark中的OOM问题不外乎以下两种情况map执行中内存溢出shuffle后内存溢出map执行中内存溢出代表了所有map类型的操作，包括：flatMap，filter，mapPatitions等。shuffle后内存溢出的s...

2019-03-02 11:46:16 820

原创 Superuser status

Superuser status- The username which was used to start the Hadoop process (i.e., the username who actually ranbin/start-all.shorbin/start-dfs.sh) is acknowledged to be thesuperuserfor HDFS. If t...

2019-03-01 19:44:38 374

转载 spark RDD分区2GB限制(Size exceeds Integer.MAX_VALUE)

最近使用spark处理较大的数据文件，遇到了分区2G限制的问题，spark日志会报如下的日志：WARN scheduler.TaskSetManager: Lost task 19.0 in stage 6.0 (TID 120, 10.111.32.47): java.lang.IllegalArgumentException: Size exceeds Integer.MAX_VALUEa...

2019-03-01 17:53:31 1544 1

原创 Apache sentry架构分析-(与hive、hdfs集成)

前言Apache Sentry是Cloudera公司发布的一个Hadoop开源组件，它提供了细粒度级、基于角色的授权以及多租户的管理模式。类似的安全管理框架还有Hortonworks公司开源的Apache Ranger。通过引进Sentry，Hadoop目前可在以下方面满足企业和政府用户的RBAC需求：安全授权：Sentry可以控制数据访问，并对已通过验证的用户提供数据访问特权。细...

2019-02-28 17:40:14 1038

原创如果自己的jar和spark默认的jar冲突

spark.driver.userClassPathFirst spark.driver.userClassPathFirst false (Experimental) Whether to give user-added jars precedence over Spark's own jars when loading classes in the driver. This...

2019-02-27 15:37:36 1173

原创 hdfs acl整理

ACL（访问控制列表）除了传统的POSIX权限模型外，HDFS还支持POSIX ACL（访问控制列表）。ACL对实现与用户和组的自然组织层次结构不同的权限要求很有用。ACL提供了一种为特定命名用户或命名组（不仅是文件所有者和文件组）设置不同权限的方法。默认情况下，禁用对ACL的支持，并且NameNode不允许创建ACL。要启用对ACL的支持，请在NameNode配置中将dfs.nameno...

2019-02-25 17:57:53 895

转载查看HDFS的元数据文件fsimage和编辑日志edits

关键字：hdfs元数据、fsimage、edits在HDFS中，fsimage和eidts是NameNode两个非常重要的文件。其中，fsimage是HDFS文件系统存于硬盘中的元数据检查点，里面记录了自最后一次检查点之前HDFS文件系统中所有目录和文件的序列化信息；而edits保存了自最后一次检查点之后所有针对HDFS文件系统的操作，比如：增加文件、重命名文件、删除目录等等。在...

2019-02-23 17:54:16 2911

转载如何在Hadoop中处理小文件-续

Fayson在前面的文章《如何在Hadoop中处理小文件》和《如何使用Impala合并小文件》中介绍了什么是Hadoop中的小文件，以及常见的处理方法。这里Fayson再补充一篇文章进行说明。 HDFS中太多的小文件往往会带来性能下降以及扩展性受限问题，为了避免这个问题，我们一般需要控制每个文件尽可能的接近HDFS block大小比如256MB，或者是block size的几倍。 ...

2019-02-23 17:04:39 200

转载查看spark任务日志

spark运行的任务往往通过web来查看，但是，当运行的是sparkStreaming任务时，日志往往会很大，web查看并不方便，因此需要定位到服务器上去看。下面将分别介绍两种查看driver端和executor端日志的方式。一、web端日志的查看：下面是四个yarn调度spark任务的web总界面：点击第一个任务：application_1509845442132_3866 进入下...

2019-02-21 15:29:25 2334

转载 Spark推测执行解决SparkStreaming任务task卡死问题

Spark推测执行解决SparkStreaming任务task卡死问题景：测试环境运行一个SparkStreaming任务，yarn-cluster模式，duration为5分钟一个批次，每个批次平均2000w条records，并行度为60资源配置为：${SPARK_HOME}/bin/spark-submit --name ${jobname} --driver-cores 3 -...

2019-02-20 17:53:15 3094 1

转载 JVM调优之jstack找出最耗cpu的线程并定位代码

jstack可以定位到线程堆栈，根据堆栈信息我们可以定位到具体代码，所以它在JVM性能调优中使用得非常多。下面我们来一个实例找出某个Java进程中最耗费CPU的Java线程并定位堆栈信息，用到的命令有ps、top、printf、jstack、grep。第一步先找出Java进程ID，服务器上的Java应用名称为mrf-center：root@ubuntu:/# ps -ef | grep ...

2019-02-19 14:35:52 295

转载 Hiveserver2 性能优化与GC优化

一、问题描述开发者利用jdbc连接hiveserver2（或者利用jdbc连接 spark HiveThriftServer2，由于两者都是提供jdbc连接到hive，因此，后面都统一称为利用jdbc连接hiveserver2），执行简单查询、复杂分析、超复杂分析等不同的sql任务，session并发量还很高（五六百甚至上千的并发），本质上要求大数据平台同时具备oltp的高并发与olap的高分...

2019-02-18 16:52:50 1310 1

转载 jvm 性能调优工具之 jmap

概述命令jmap是一个多功能的命令。它可以生成 java 程序的 dump 文件，也可以查看堆内对象示例的统计信息、查看 ClassLoader 的信息以及 finalizer 队列。jmap 用法参数：option：选项参数。 pid：需要打印配置信息的进程ID。 executable：产生核心dump的Java可执行文件。 core：需要打印配置信息的核心文...

2019-02-18 15:13:40 730

转载 Hiveserver2 性能优化与GC优化

一、问题描述开发者利用jdbc连接hiveserver2（或者利用jdbc连接 spark HiveThriftServer2，由于两者都是提供jdbc连接到hive，因此，后面都统一称为利用jdbc连接hiveserver2），执行简单查询、复杂分析、超复杂分析等不同的sql任务，session并发量还很高（五六百甚至上千的并发），本质上要求大数据平台同时具备oltp的高并发与olap的高分...

2019-02-18 11:47:34 637

转载 JVM系列三:JVM参数设置、分析

不管是YGC还是Full GC,GC过程中都会对导致程序运行中中断,正确的选择不同的GC策略,调整JVM、GC的参数，可以极大的减少由于GC工作，而导致的程序运行中断方面的问题，进而适当的提高Java程序的工作效率。但是调整GC是以个极为复杂的过程，由于各个程序具备不同的特点，如：web和GUI程序就有很大区别（Web可以适当的停顿，但GUI停顿是客户无法接受的），而且由于跑在各个机器上的配置不同...

2019-02-18 11:30:48 224

转载为什么Cloudera要创建Hadoop安全组件Sentry？

转载自：http://developer.51cto.com/art/201502/465091.htm1. 大数据的安全体系要说清楚这个问题，还得从大数据平台安全体系的四个层次说起：外围安全、数据安全、访问安全以及访问行为监控；如下图所示：外围安全：技术多指传统意义上提到的网络安全技术，如防火墙，登陆认证等；数据安全：从狭义上说包括对用户数据的加解密，又可细分为存...

2019-02-16 10:45:30 323

转载 Hadoop之小文件处理与调优经验

1.什么是小文件小文件一般是指明显小于Hadoop的block size的文件。Hadoop的block size一般是64MB，128MB或者256MB，现在一般趋向于设置的越来越大。后文要讨论的内容会基于128MB，这也是CDH中的默认值。为了方便后面的讨论，Fayson这里假定如果文件大小小于block size的75%，则定义为小文件。但小文件不仅是指文件比较小，如果Hadoop集群中的...

2019-02-13 18:00:17 649

转载 parkstreaming实时写入hive后合并小文件问题

今天主要来说一下sparksql写入hive后小文件太多,影响查询性能的问题.在另外一篇博客里面也稍微提到了一下,但还是感觉要单独说一下,首先我们要知道hive里面文件的数量=executor-cores*num-executors*job数,所以如果我们batchDuration的设置的比较小的话,每天在一个分区里面就会生成很多的小文件,我们在hive里面查询的时候就会非常的影响性能,下面介绍两...

2019-02-03 15:27:07 760

转载 hive合并小文件的配置项

〇. 启动压缩set hive.exec.compress.output=true;set mapreduce.output.fileoutputformat.compress=true; 一. 输入合并：当有大量小文件时，启动合并，减少map数。set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputF...

2019-02-03 15:22:03 1041

原创 Hive总结篇及Hive的优化

概述Hive学习也有一段时间了，今天来对Hive进行一个总结，谈谈自己的理解，作者还是个小白，有不对的地方请大家指出相互学习，共同进步。今天来谈一谈什么是Hive，产生背景，优势等一系列问题。什么是Hive老规矩：官网地址 Hive wiki. 先来谈谈自己的理解：有些人可能会说Hive不就是写SQL的吗，那我们其实可以从另一个角度来理解:Hive就是那么强大啊，只要写SQL就能解...

2019-02-02 20:03:34 260

原创 hive与dbvisual整合

How I Connected DBVisualizer 9.2.2 on Windows to Hortonwork HiveServer2IntroductionNote! This guide is particular to DBVisualizer 9.2.2 and Hortonwork HiveServer2 (hive-0.14.0). It may work with o...

2019-02-01 19:47:02 611

原创如何使用Zookeeper实现HiveServer2的HA

之前Fayson介绍了《如何使用HAProxy实现HiveServer2负载均衡》，这种方案也有一些弊端，如HAProxy本身就是单点，虽然可以通过Keepalived来实现HAProxy的高可用，但这样配置会比较麻烦并且需要多部署两个组件，增大了系统运维的复杂度。在大数据平台中Zookeeper是一个必不可少且自身具有高可用保证的组件，本文主要讲述如何使用Zookeeper实现HiveServe...

2019-02-01 15:25:35 5426

原创 CentOS7 haproxy+keepalived实现高可用集群搭建

CentOS7 haproxy+keepalived实现高可用集群搭建一、搭建环境　　CentOS7 64位 Keepalived 1.3.5 Haproxy 1.5.18　　后端负载主机：192.168.166.21 192.168.166.22 两台节点上安装rabbitmq服务 Haproxy 也是安装在 192...

2019-01-31 17:02:50 325

转载 CentOS7 haproxy+keepalived实现高可用集群搭建

CentOS7 haproxy+keepalived实现高可用集群搭建一、搭建环境　　CentOS7 64位 Keepalived 1.3.5 Haproxy 1.5.18　　后端负载主机：192.168.166.21 192.168.166.22 两台节点上安装rabbitmq服务 Haproxy 也是安装在 ...

2019-01-31 15:09:10 656

转载 hive 参数调优

Map Reduce数量相关数据分片大小 (分片的数量决定map的数量) 计算公式: splitSize = Math.max(minSize, Math.min(maxSize, blockSize))1 2set mapreduce.input.fileinputformat.split.maxsize=750000000;单个reduce处理的数据量 (影响reduc...

2019-01-30 20:14:27 1179

原创如何在Hadoop中处理小文件-续

Fayson在前面的文章《如何在Hadoop中处理小文件》和《如何使用Impala合并小文件》中介绍了什么是Hadoop中的小文件，以及常见的处理方法。这里Fayson再补充一篇文章进行说明。 HDFS中太多的小文件往往会带来性能下降以及扩展性受限问题，为了避免这个问题，我们一般需要控制每个文件尽可能的接近HDFS block大小比如256MB，或者是block size的几倍。 ...

2019-01-29 16:22:40 323 1

转载如何在Hadoop中处理小文件

如何在Hadoop中处理小文件Fayson的github：https://github.com/fayson/cdhproject 提示：代码块部分可以左右滑动查看噢本文约6000字，阅读时间约为15分钟。 1.什么是小文件小文件一般是指明显小于Hadoop的block size的文件。Hadoop的block size一般是64M...

2019-01-29 15:34:33 366

原创 NameNode文件对象数大于内存规划

问题背景与现象上层组件访问HDFS缓慢，怀疑HDFS有性能问题。可能原因HDFS的存储的对象数超过NameNode配置的内存。原因分析NameNode中文件对象需要占用一定的内存，消耗内存大小随文件对象的生成而线性递增。NameNode中，文件对象可以是文件、目录或者Block。在NameNode WebUI界面的Summary也可以看到文件系统对象（filesystem ob...

2019-01-29 11:38:19 1439

原创 hadoop distcp hftp hdfs跨集群拷贝常见问题归总

在工作中遇到部门间数据合作，需跨不同版本集群拷贝数据，从hadoop 2.6.0-cdh5.7.0 拷贝数据到hadoop 2.7.1，记录所碰到的问题及解决方案。distcp基础用法比如拷贝A集群（src集群）的A1目录到B集群（dest集群）的B1目录，1.同版本集群拷贝（hdfs协议）：在dest集群（目标集群）运行命令：hadoop distcp hdfs://1...

2019-01-29 11:26:26 4408

原创 HDFS Balance调优参数设置

问题背景与现象当HDFS集群各个DataNode存储的数据不均衡时，需要使用hdfs balance功能，调整相关参数可以提升balance性能。操作步骤修改如下参数： dfs.datanode.balance.bandwidthPerSec =209715200 说明：该参数限定每个DataNode用来平衡数据时，占用带宽的上限；这个参数的调整要看组网情况，如...

2019-01-29 11:25:45 5837

原创节点内DataNode磁盘使用率不均衡处理指导

问题背景与现象单个节点内DataNode的各磁盘使用率不均匀。例如：复制<span style="color:#333333">189-39-235-71:~ # df -hFilesystem Size Used Avail Use% Mounted on/dev/xvda 360G 92G 250G 28% //dev/xvdb 700G ...

2019-01-29 11:25:38 1449

转载 hdfs权限

小米的HDFS承载了公司内多个部门几十条业务线的几十PB数据，这些数据有些是安全级别非常高的用户隐私数据，也有被广泛被多个业务线使用的基础数据，不同的业务之间有着复杂的数据依赖。因此，如何管理好这些数据的授权，并尽可能自动化低成本的做好权限管理，是很重要的一部分工作。本文系统的描述了HDFS权限管理体系中与用户关联最紧密的授权相关内容，希望通过本文让大家对权限管理有一个清晰的了解。HDFS的...

2019-01-24 20:07:21 388

转载 Permission Inheritance in Hive

Permission Inheritance in Hive This document describes how attributes (permission, group, extended ACL's) of files representing Hive data are determined.HDFS BackgroundWhen a file or directory...

2019-01-24 15:13:40 504

android布局学习的好资料

android和httpclient结合的例子

一些常用的android代码

监控类代码

空空如也