- 博客(23)
- 资源 (1)
- 收藏
- 关注
原创 关于Atlas管理元数据hdfs_path的删除方式
刚刚接触Atlas的时候,像要做一个数据一致性和血缘关系,方便业务数据库字段变更,更新hive里面各个层级的表。然后就发现,删除hdfs路径后,atlas的hdfs_path没有随之删除。hdfs.txt 里面写删除的hdfs相对路径 例如:/user/hive/warehouse/test.db/a/2023-01-01/找了很多资料,都没有找到解决办法,然后就从Atlas的SWAGGER入手,找到解决办法,供各位参考。
2023-03-15 14:57:21
302
原创 Streamsets Mysql全量导同步到hive
三种方式根据需要弄哈;增量的,我觉得实际业务中,除非没有update操作才适合使用JDBC这种增量方式,不然都是扯犊子,毕竟hdfs对随机写不是很友好。这是全量的,慢的很。没有sqoop快。1、JDBC Query Consumer (单表全量)2、 JDBC Multitable Consumer (单库多表全量)3、分区同步建议使用下面的 (单表分区)配置文件很简单。这里不说,有需要的小伙伴可以留言交流。.........
2022-05-13 16:52:37
1053
原创 Streamsets 3.23.0编译安装
Streamsets 很好用,功能齐全,但是不开源了。Cloudera也是,很忧伤啊。在接触Streamsets的时候,已经需要注册下载了,但是呢,注册不上。官方没有扼杀所有,可以自己编译。下载地址:https://codeload.github.com/designmind/datacollector-plugin-api/zip/refs/heads/masterhttps://codeload.github.com/designmind/datacollector/zip/refs/hea
2022-05-13 16:11:59
2377
14
原创 CDH6.2.0 集成Apache atlas 详细的编译安装
不说环境了,都到了元数据管理,基本的需要的java、maven肯定是不可少的。编译:官网下载apache-atlas-2.2.0-sources.tar.gz 解压 tar -zxvf apache-atlas-2.2.0-sources.tar.gz 编译,进入目录 mvn clean -DskipTests package -Pdist 编译好了之后进入apache-atlas-sources-2.2.0/distro/target里面apache-atlas-2.2.0-bin.t..
2022-05-13 15:21:43
775
原创 since it exceeds Excel‘s limit of 65,530 URLS per worksheet
since it exceeds Excel's limit of 65,530 URLS per worksheet
2022-03-29 13:59:43
1961
原创 Apache Hadoop 整合 hive hue spark hbase
阶段三 整合hive hue spark hbase master slave1 slave2 HDFS NameNode NameNode DataNode DataNode DataNode journalnode journaln
2021-08-09 17:52:51
553
原创 Apache hadoop启用HA
阶段二hadoop启用HA master slave1 slave2 HDFS NameNode NameNode DataNode DataNode DataNode journalnode journalnode
2021-08-09 17:47:26
356
原创 apache hadoop 3.2.0安装
一、环境准备1、关闭防火墙systemctl stop firewalldsystemctl disable firewalld.service2、修改主机名和hosts文件hostnamectl set-hostname mastervim /etc/hosts127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4::1 localhost localh...
2021-08-09 17:43:08
436
原创 kettle 9.1 连接hadoop clusters (CDH 6.2)
1、右键点击Hadoop clusters 点击add driver。2、点击窗口Browse选择:C:\Users\famil\Downloads\data-integration\ADDITIONAL-FILES\drivers中的pentaho-hadoop-shims-cdh61-kar-9.1.2020.09.00-324.kar 选择下一步安装。3、右键点击Hadoop clusters 点击import cluster就会出现如下:4、下载CDH 配置文件:..
2021-08-03 18:03:15
2788
9
原创 dolphinscheduler告警到钉钉
#!/usr/bin/env pythonimport base64import hashlibimport hmacimport sysimport timeimport urllibimport requestsimport pymysqlimport jsonimport jsonpathimport datetimefrom apscheduler.schedulers.blocking import BlockingSchedulerdef get_timest.
2021-07-30 16:17:56
1763
7
原创 Flink消费kafak小例子
import org.apache.flink.api.common.serialization.SimpleStringSchema;import org.apache.flink.streaming.api.CheckpointingMode;import org.apache.flink.streaming.api.TimeCharacteristic;import org.apache.flink.streaming.api.datastream.DataStreamSource;impo.
2021-07-30 16:07:47
172
原创 Flink 流处理和批处理测试小代码
批处理:import org.apache.flink.api.common.functions.FlatMapFunction;import org.apache.flink.api.java.DataSet;import org.apache.flink.api.java.ExecutionEnvironment;import org.apache.flink.api.java.operators.DataSource;import org.apache.flink.api.java.tu
2021-07-30 16:03:43
286
原创 获取CDH集群告警并通过钉钉告出
#!/bin/bash########################################################## shell :获取集群告警并通过钉钉告出 ########################################################## 告警级别说明:# CRITICAL:对应CM界面的红色感叹号告警或者对应ERROR级别的日...
2021-07-30 15:59:42
657
原创 kerberos在Cloudera manager +CDH中的运用实践
hadoop在用户权限上做的只是像linux用户级别的安全认证,即对文件的访问权限。对于一些数据安全比较重视的公司是不够的,如果对数据安全有要求,而且是认证方式的,可以使用kerberos,但是并不是很好用,当初阿里巴巴在安全上使用kerberos,后来嫌弃太麻烦就抛弃了,自己开发了一套安全认证系统叫宙斯盾已经开源,有兴趣的可以看看。今天为大家写的实践已经运用到我们单位的大数据平台。不废话去讲ke...
2018-03-14 11:42:17
3339
1
原创 cloudera-scm-server单点故障处理及恢复
实际生产中,CDH的重要服务都可以做HA,但是cloudera-scm-server却只能单点,若cloudera-scm-server主机损坏或者服务损坏,不可能重新启动再接管集群,需要我们自己手动去恢复。这里教大家解决cloudera-scm-server单点故障的处理方法和恢复。这里做测试:在cloudera-scm-server主机上直接kill掉scm的服务,并卸载。卸载的时候要注意,不...
2018-03-07 11:37:01
3931
1
原创 CM+CDH离线升级5.7跨版本升级到5.14
上篇博客讲到CM+CDH离线安装http://blog.youkuaiyun.com/weixin_40817778/article/details/79414166。但是,软件更新速度很快,需要升级版本。跨版本升级:5.7.0升级到5.141、下载准备CM和CDH的相关文件:2、tar -zxvf cm5.14.0-centos6.tar.gz -C /home/opt/cloudera/创建yum源:cr...
2018-03-07 10:43:51
3037
原创 cloudera manager+CDH 完全离线安装文档 版本5.7
写完全离线的目的有几点:1、数据安全考虑,服务器不允许与外部连通。2、对于下载速度很慢的时候,可以考虑。3、集群规模大,人手不够,又不会写shell脚本一键安装。cloudera manager 下载地址:http://archive.cloudera.com/cm5/CDH 下载地址:http://archive.cloudera.com/cdh5/说明:测...
2018-03-06 16:48:07
4144
2
pentaho-hadoop-shims-cdh61-kar-9.1.2020.09.00-324.kar
2021-09-27
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人