914 JJ-优快云博客

原创 Sentry权限控制

趁我未失忆之前，记录过去曾经的自己文章目录前言一、CM 页面Sentry group 管理二、使用beeline连接HiveServer2三、赋予权限1.创建admin,dread角色引入库2.为角色赋予权限3.将角色授权给各个用户组三、赋予权限总结前言透過前面幾篇sentry安裝與Hive，Hue，Impala集成，這篇说明如何增加权限与控制权限一、CM 页面Sentry group 管理首先我们要确保用户组（group) 是否建立在sentry的admin group。而这里的用户组也就是

2021-03-18 16:27:47 1549 2

原创 Airflow web 页面介绍

趁我未失忆之前，记录过去曾经的自己文章目录前言一、DAG1.Tree View2.Graph View3.Tasks Duration4.Task Tries5.Gantt6.Details7.code二、執行 DAG三、Browse 浏览标签1.SLA Misses2.DAG Runs3.Jobs4.Audit logs5.Task Instance6.Task Reschedule四、Admin标签五、Docs标签与Security标签前言这一篇只介绍Airflow web 页面介绍，想要了解架

2021-03-11 15:39:06 1405

原创机器学习-K-means 相关数学基础知识篇(1)

趁我未失忆之前，记录过去曾经的自己文章目录前言一、数学符号介绍二、向量的认识三、许多聚类演算法采用以下两种资料架构四、距离计算-欧机理得距离前言914博主总是希望大家可以多了解底层数学逻辑，会帮助你们在建模或设定参数会有极大的帮助，也是高效影响你们建模的水平与降低踩坑的机会，所以这一篇文章会讲解基础的数学理论。一、数学符号介绍那以下这个范例，用程序对造就是如下q=0for i in range(1,n)： q+=i return(q)二、向量的认识在数学中，向量（也称为

2021-03-10 19:30:17 375

原创 centos7 安装airflow及配置celery+RabbitMQ和celery+redis

趁我未失忆之前，记录过去曾经的自己文章目录前言一、airflow完整安装流程1.airflow 前置安装1.进行pip的更新，否则很多安装会报错airflow 基础安装2.安装开发库3.安装mysql4.初始化配置mysql5.環境變量設置2.airflow 與airflow mysql安装1.安装airflow2.初始化airflow并启动3.安装airflow-mysql4.创建testairflow用户,创建airflow数据库并给出所有权限给testairflow用户5.修改airflow配置文

2021-03-10 18:58:44 1507 1

原创 Linux 用户和用户组管理

趁我未失忆之前，记录过去曾经的自己文章目录前言一、Linux系统用户账号的管理1.添加新的用户2.删除帐号2.修改帐号二、Linux系统用户组的管理1.引入库2.读入数据总结前言因为在建立sentry时，在sentry授权文章中，我们可以了解其中用户与用户组的关系，也知道sentry中用户组也就是和其他Hadoop生态系统其他组件的Group会是一致。且要确保用户在集群所有节点均存在。所以这篇文章说明一下如何在Linux 用户和用户组管理。一、Linux系统用户账号的管理用户账号的管理工作主要

2021-03-08 16:37:32 360

原创 Sentry授权的组（GROUP）来源

趁我未失忆之前，记录过去曾经的自己文章目录前言一、Sentry 特性二、Hadoop用户组映射实施1.CM介面设定2.Hadoop用户到组的映射总结前言在设定sentry 授权时, 发现错误指令Error: Error while compiling statement: FAILED: SemanticException Sentry does not allow privileges to be granted/revoked to/from: USER 。且总觉得要用户要存在在集群的每个节点

2021-03-05 19:10:45 1388

原创 Sentry 授权

趁我未失忆之前，记录过去曾经的自己文章目录前言一、架构概述？1.Sentry 组件2.主要概念3.User身份和Group映射4.基于roles的访问控制5.统一授权二、Sentry与Hadoop生态系统的集成1.Hive and Sentry2.Impala and Sentry2.Sentry-HDFS同步2.读入数据总结前言sentry是Hadoop的基于角色的进行授权，Sentry为Hadoop集群上经过身份验证的用户和应用程序提供了控制和实施数据权限分级的功能。Sentry可以与Apach

2021-02-26 12:15:56 842

原创在CDH 6 中安装Sentry服务

趁我未失忆之前，记录过去曾经的自己文章目录前言一、Sentry是什么？1.Sentry介绍2.最佳性能二、添加Sentry服务与各组件配置1.Sentry服务安装前言在当要对某些用户在hive上操作可以对某些表或是数据的权限做控管时，就需要安装Sentry。通常会一起搭配Kerberos。cdh版本的hadoop在对数据安全上的处理通常采用Kerberos+Sentry的结构。kerberos主要负责平台用户的用户认证，sentry则负责数据的权限管理。一、Sentry是什么？1.Sentry

2021-02-24 13:50:10 874

原创为相关服务启用Sentry

趁我未失忆之前，记录过去曾经的自己Configuring the Sentry Service文章目录前言一、pandas是什么？二、使用步骤1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文内容，下面案例可供参考一、pandas是什么？示例：pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。

2021-02-24 13:45:07 467

原创 CM 登入出現Unable to acquire JDBC Connection 打開hue 出現 TCP/IP connections on port 5432

场景：CM 登入出現Unable to acquire JDBC Connection。打開hue 出現 TCP/IP connections on port 5432conn = _connect(dsn, connection_factory=connection_factory, **kwasync)OperationalError: could not connect to server: Connection refused Is the server running on host

2021-02-19 12:09:50 2322 1

原创 HIVE 出現 [Error 20004]: Fatal error occurred when node tried to create too many dynamic partitions.

BUG MSG：在创建好一个分区表后，执行动态分区插入数据，抛出了错误： [Error 20004]: Fatal error occurred when node tried to create too many dynamic partitions. The maximum number of dynamic partitions is controlled by hive.exec.max.dynamic.partitions and hive.exec.max.dynamic.partition

2021-02-06 19:35:13 622

原创 kafka创建topic出现Replication factor: 1 larger than available brokers: 0.

项目场景：安装好kafka之后，准备建立一个topic出现Replication factor: 1 larger than available brokers: 0.问题描述：在安装好kafka之后，准备建立一个topic：#执行./bin/kafka-topics --create --zookeeper 10.227.0.97:2181 --replication-factor 1 --partitions 3 --topic imooc-kafka-topic#问题Error w

2021-02-04 14:59:43 7893 1

原创 ZooKeeper启动所有节点都是Mode: leader

项目场景：启动 ZooKeeper时，发现所有的节点都是leader问题描述：安装完ZooKeeper，启动ZooKeeper，所有节点都是Mode: leaderJMX enabled by defaultUsing config: /opt/cloudera/parcels/CDH-6.0.0/lib/zookeeper/bin/../conf/zoo.cfgMode: leader 原因分析：组成ZooKeeper的成员服务器。server.x的x是服务器号，与对应服务器dat

2021-02-01 21:03:41 1961

原创利用 Cloudera Manager下安装kafka

文章目录前言一、基于 CDH 版本选择安装1.1基于 CDH 版本选择安装1.2选择依赖项1.3角色分配1.4 设置 KafkaBroker 配置1.5 查看命令详请1.6 安装概要1.7 主页查看/启动前言本文章是是利用Cloudera Manager下安装kafka。不是基于 parcel 包离线安装一、基于 CDH 版本选择安装1.1基于 CDH 版本选择安装登录 CM 控制台，选择“Add Service"选择需要安装的 Kafka1.2选择依赖项点击continue，会出现

2021-02-01 16:08:40 851

原创 HDFS常用的操作命令

HDFS常用的操作命令文章目录前言一、查看HDFS大小1.查看HDFS 目录下的文件bytes1.1-count查看HDFS这个目录2.查看HDFS文件夹下各个目录的总大小2.1-du查看HDFS这个目录二、文件操作1.查看文件命令1.1 ls 命令：1.2 du 命令：1.3 df 命令：1.4 cat 命令：1.5 tail 命令1.6 grep 命令2.复制文件和获取文件命令2.1 put 命令：2.2 get命令：2.3 copyFromLocal 命令：2.4 copyToLocal 命令：

2021-01-27 14:54:08 2145

原创取消Hue下載限制

场景：当在Hue上通过impala/hive查询后，下载数据时会限制10万行的数据量。最多只能下载10万行的数据，以下方法可以增加行数。解决方法：修改hue所在机器,找寻的{cloudera安装位置}/lib/hue/apps/beeswax/src/beeswax/conf.py修改默认配置后，重启hue即可。#执行以下命令找到cloudera安装地方find / -name beeswax#cloudera安装地方/opt/cloudera/parcels/CDH-7.0.0/lib

2021-01-25 14:18:20 417

原创 CentOS7部署Azkaban單機模式

文章目录azkaban工作流调度器前言一、Azkanban下载？二、安装配置1.Azkaban 单服务模式安装与使用1.拷贝我们所需的文件并解压2.Azkaban 单机服务模式安装与使用2.1 修改时区配置文件2.2修改commonprivate.properties配置文件2.3 启动solo-server2.3 浏览器页面访问总结azkaban工作流调度器前言Azkaban是由Linkedin公司推出的一个批量工作流任务轻量级调度器，用于在一个工作流内以一个特定的顺序运行一组工作和流程, 可定

2021-01-21 18:49:11 614

qq_39841823的博客