麦田里的守望者·-优快云博客

原创 Apache Flink 流处理（快速入门）

Flink Streaming概述DataStream在Flink中实现了对数据流的Transformation，内部Flink的数据源可以通过各种数据源创建，例如：消息队列、socket streams、文件。流计算的结果通过Sinks输出,例如将数据写入文件、标准输出等。共同依赖<properties> <flink.version>1.7.1</f...

2019-07-27 20:07:26 865

原创 Apache Storm 2.0 Stream API

作者：jiangzz 电话：15652034180 微信：jiangzz_wx 微信公众账号：jiangzz_wyStream APIStream API是Storm的另一种替代接口在2.0.0版本新添特性。它提供了一种用于表达流式计算的类型化API，并支持功能样式操作。快速入门StreamBuilder builder = new StreamBuilder();KafkaSpout...

2019-06-27 15:45:18 648 1

原创 Spring Framework 学习指南手册

目录结构https://docs.spring.io/spring/docs/current/spring-framework-reference/index.htmlSpring Framework DocumentationVersion 5.1.7.RELEASE模块概述CoreIoC Container, Events, Resources, i18n, ...

2019-06-04 17:03:11 467

作者：jiangzz 电话：15652034180 微信：jiangzz_wx 微信公众账号：jiangzz_wy概述Flume是一种分布式，可靠且可用的服务，用于有效地收集，聚合和移动大量日志数据。Flume构建在日志流之上一个简单灵活的架构。它具有可靠的可靠性机制和许多故障转移和恢复机制，具有强大的容错性。使用Flume这套架构实现对日志流数据的实时在线分析。Flume支持在日志系统中定制...

2019-05-08 20:55:52 4909

原创 Apache Flink之架构概述和环境(章节一)

作者：jiangzz 电话：15652034180 微信：jiangzz_wx 微信公众账号：jiangzz_wy 百知教育背景介绍继Spark之后第三代内存计算框架Flink应运而生，Flink作为第三代计算框架Flink吸取了二代大数据Spark计算的设计的精华，依然采用DAG模型做任务拆分，但是Spark在流处理领域上因为微观批处理实时性不高甚至在性能上还不能和一代流处理框架Storm匹...

2019-04-26 11:34:09 1257

原创 Spark Yarn|Standalone

作者：jiangzz 电话：15652034180 微信：jiangzz_wx 微信公众账号：jiangzz_wy背景介绍Spark是一个快如闪电的统一分析引擎（计算框架）用于大规模数据集的处理。Spark在做数据的批处理计算，计算性能大约是Hadoop MapReduce的10~100倍，因为Spark使用比较先进的基于DAG 任务调度，可以将一个任务拆分成若干个阶段，然后将这些阶段分批次交...

2019-04-18 16:42:49 414

原创 Apache Hbase

作者：jiangzz 电话：15652034180 微信：jiangzz_wx 微信公众账号：jiangzz_wy 百知教育Hbase概述Hbase是一个基于Hadoop之上的数据库服务，该数据库是一个分布式、可扩展的大的数据仓库。当您需要对大数据进行随机，实时读/写访问时，请使用Apache HBase™（HDFS虽然可以存储海量数据，但是对数据的管理粒度比较粗糙，只支持对文件的上传下载，...

2019-04-17 17:50:05 1584

原创 Apache Kafka 消息队列

作者：jiangzz 电话：15652034180 微信：jiangzz_wx 微信公众账号：jiangzz_wy 百知教育Apache Kafka概述Kafka是Apache软件基金会的开源的流处理平台，该平台提供了消息的订阅与发布，能够基于Kafka实现对网络日志流实时在线处理，在这个维度上弥补了Hadoop的离线分析系统的不足。因为基于hadoop的MapReduce系统分析离线数据延...

2019-04-17 15:21:47 1079 1

原创 Apache Hadoop

作者：jiangzz 电话：15652034180 微信：jiangzz_wx 微信公众账号：jiangzz_wy 百知教育大数据(Big Data)随着信息化互联网|物联网发展要求，万物互联趋势势在必行。随之引发架构的演变由单一架构向高并发分布式架构演变。数据的存储也开始由原始的单机存储演变为分布式存储。高并发互联网设计 LNMP、数据库主从RDBMS|NoSQL、Spring Clo...

2019-04-17 15:16:44 1711

原创 Apache Storm-1.2.x 实战版

Apache Storm背景介绍流计算:将大规模流动数据在不断变化的运动过程中实现数据的实时分析，捕捉到可能有用的信息，并把结果发送到下一计算节点。主流流计算框架:Kafka Streaming、Apache Storm、Spark Streaming、Flink DataStream等。Kafka Streaming:是一套基于Kafka-Streaming库的一套流计算工具jar包...

2019-04-17 13:46:27 1487

原创 Scala Language Programing Guide（章节一）

Scala编程指南Scala Language Programing Guide介绍环境配置变量变量声明数值转换数组元组分支循环条件分支while/do-whileBreakfor循环数组遍历数组计算模式匹配数值匹配类型匹配函数函数声明标准函数可变长参数参数默认值参数命名内嵌函数柯里化(Currying)匿名函数Class & object单例类类伴生对象抽象类Trait(接口)继承&am...

2019-04-17 12:04:45 517

原创公有云夸VPC网络服务打通方案

2.跨子网同vpc路由：在table 2中添加一条路由规则，使得目标地址为6.254.0.0/18(服务VPC)的流量首先通过eth2接口发送到指定的下一跳地址（6.254.0.1 gateway网段地址）这允许跨子网的流量在相同的VPC内通过特定的网络接口和路径进行路由。如果这块执行不正确，会导致POD中无法正常访问服务VPC中的服务，但是NODE节点是可以正常访问的，因此这块需要特别留意。(4) iptables的nat table中，增加伪装，更换流量原ip为授信网卡ip。(3) 添加路由服务。

2024-08-16 09:57:47 442

原创 Spark SQL 血缘解析方案

瞬间是不是感觉清晰了，可以完美的拿到表和表以及字段和字段的关系，甚至在加工点场景，可以吧字段的加工表达式可以给生成出来.这里需要注意原生的json文件太大，在发送到kafka中对存储和带宽都有压力，最后注意：血缘的解析处理，放在该agent端，否则kafka的压力会很大，因为单条消息生产环境下会很大可能有10多mb都有可能。目前这个是最简单的，如果没有特殊的需求，可以直接对Apache Atlas中的hive hook进行裁剪，最终可以得到业务所需的血缘采集插件，一般可以到字段级别血缘。

2024-06-22 16:58:41 1913

原创 Flink Rest Basic Auth - 安全认证

背景公司目前需要将Flink实时作业云化，构建多租户实时计算平台。目前考虑为了资源高效利用，并不打算为每个租户部署一套独立的Kubernetes集群。也就意味着多个租户的作业可能会运行在同一套kubernets集群中。此时实时作业的任务就变的很危险，因为网络可能是通的，就会存在危险的REST API暴露出去，被一些不坏好意的人利用，从而影响其他租户的作业。鉴于此考虑给Flink的作业添加一个认证方式，可以是Kerberos或者是Http 用户名密码Baisc认证。各种搜索和询问，最终发现了一些线索FLIP

2024-06-04 15:46:06 1353 1

原创 Flink CDC - Postgres

此处生成postgresql实例，账户postgres/pass123,通过IDEA创建Datasource数据源查看postgress的版本信息。2）开启Postgress wal日志。1）部署安装Postgres服务。3）开启Flink建表映射。

2024-05-28 14:55:36 632

原创 Atlas 血缘分析-hive/spark

2)解压apache-atlas-2.3.0-hive-hook.tar.gz文件，然后将该文件包下的atlas-plugin-classloader-2.3.0.jar和hive-bridge-shim-2.3.0.jar建立软连接到hive安装目录下的auxlib目录。这里需要注意，需要从官网下载Atlas的源码，不要从git上分支去checkout，因为从分支checkout出来的代码，无法正常运行，这里小编使用针对Atlas-2.3.0源码进行编译。1）下载kyuubi源码，编译如下模块。

2024-05-25 18:12:12 1242 1

原创 Kafka SASL_SSL集群认证

公司需要对kafka环境进行安全验证，目前考虑到的方案有Kerberos和SSL和SASL_SSL，最终考虑到安全和功能的丰富度，我们最终选择了SASL_SSL方案。到此为止，SSL的证书生成和签发完成，可以在当前目录下看到server.keystore.jks和server.truststore.jks文件，最后将这些签发的证书上传到剩下的两台kafka机器上的。证书的生成只需要在任意一台机器上实现，然后将生成的证书拷贝到其余的机器上即可。本次案例生成的在141这台机器上。1）生成keystore。

2024-05-23 13:21:33 2344

原创 Kafka SSL认证

参考：https://www.ibm.com/docs/zh/cloud-paks/cp-biz-automation/21.0.3?在kafka安装目录下/certificates生成keystore和trust文件，在其中一台机器声生成证书，然后将。文件拷贝其他broker节点上去即可。3.导入CA到truststore。1.生成keystore。

2024-05-21 18:45:04 1174

原创 Flink Kylinv10 java8 Flink镜像制作

基于麒麟v10版本制作JDK8 Flink镜像

2024-05-21 13:45:07 503

原创 SpringBoot RPM制作

Spring Boot RPM镜像制作

2024-05-21 11:48:34 594

原创 Kubernates-dashbord-安装

kubernets 仪表盘安装，辅助故障排查

2024-05-21 11:29:37 355

原创 Apache Flink 流处理-[CentOS｜Rocky] 镜像

Flink Docker Rocky&CentOS8 镜像制作

2024-04-25 17:23:58 805 4

原创 Clickhouse实时指标加工

Starwift（ClickHouse）是京东云上的一款云原生数据仓库，为用户带来极速分析体验，能够支撑实时数据分析和海量数据离线分析。便捷的弹性扩缩容能力，极致分析性能和丰富的企业级特性，助力客户数字化转型。实时指标加工是从离线指标加工需求演变而来。业务场景对离线加工的时效性的要求已经升级为指标加工分析实时性的增强。实时指标加工首先要求指标加工的时效性能够保障，指标的加工的时效性是指从数据源到数据计算，再到数据的落地可查，整个过程都是完全实时的，并且保证时延最低。

2024-01-11 13:10:29 1419

原创 Flink Operator 使用指南之全局配置

Flink Operator全局配置

2023-11-20 21:01:42 1281

原创 Flink Operator 使用指南之 Flink Operator安装

Flink Operator实战基础篇

2023-11-20 18:30:00 1465

原创 Flink实时计算中台Kubernates功能改造点

平台为数据开发人员提供基本的实时作业的管理功能，其中包括jar、sql等作业的在线开发；安装官方的使用说明，在镜像Application-Mode部署的时候，用户需要更具发布的jar包每次都需要重新打包镜像，启动作业，这样在生产场景下比较满，导致作业的制作工艺比较复杂，因此我们需要针对TaskManager和JobManagwer的pod进行修改，总体思想是通过在构建TaskManager、JobManagwer pod的时候，自动挂载本地的NFS镜像资源Volume到镜像的。卷挂载解决用户jar的问题。

2023-09-02 18:10:36 713

原创 Flink Kubernates Native - 入门

运行flink session任务。1、编写DockerFile。命令空间添加资源限制。可以根据提示信息访问。

2023-08-28 16:12:11 1012

原创 Kafka安全认证-Kerberos&SCRAM

配置SASL/PLAIN验证，实现了对Kafka的权限控制。但SASL/PLAIN验证有一个问题：只能在JAAS文件KafkaServer中配置用户，一但Kafka启动，无法动态新增用户。SASL/SCRAM验证可以动态新增用户并分配权限安装步骤.

2023-02-26 20:20:12 973

原创 Kafka安全认证-SASL

Kafka Sasl认证部署

2022-08-24 15:06:46 1441

原创 Kubernetes笔记-Namespace

在 Kubernetes 中，名字空间（Namespace）提供一种机制，将同一集群中的资源划分为相互隔离的组。同一名字空间内的资源名称要唯一，但跨名字空间时没有这个要求。名字空间作用域仅针对带有名字空间的对象，例如 Deployment、Service 等，这种作用域对集群访问的对象不适用，例如 StorageClass、Node、PersistentVolume 等。名字空间适用于存在很多跨多个团队或项目的用户的场景。对于只有几到几十个用户的集群，根本不需要创建或考虑名字空间。...

2022-08-18 10:17:51 210

原创 Kubernetes笔记-部署安装指南

重启机器生效，重启后可以使用getenforce命令查看状态。如果安装速度慢，用户可以考虑使用阿里云的安装镜像。所有机器信息均需要配置主机和ip映射关系。（2）注册账号，或者使用支付宝账号登陆。表示每间隔10分钟同步一下时钟。④配置Docker国内镜像。（3）登陆后进入下面页面。①安装Docker环境。...............

2022-08-15 17:04:36 327

原创 Jenkins指南-安装部署

Jenkins是一款开源CI&CD软件，用于自动化各种任务，包括构建、测试和部署软件。Jenkins支持各种运行方式，可通过系统包、Docker或者通过一个独立的Java程序。

2022-08-02 11:00:39 221

原创达梦-MySQL FIND_IN_SET解决方案

达梦数据库适配

2022-06-08 12:58:00 2457 1

原创 OracleCDC

[oracle@a9113e4ba60b /]$ export ORACLE_HOME=/home/oracle/app/oracle/product/11.2.0/dbhome_2[oracle@a9113e4ba60b /]$ sqlplus /nologSQL*Plus: Release 11.2.0.1.0 Production on Thu May 26 08:20:36 2022Copyright (c) 1982, 2009, Oracle. All rights reserved

2022-05-27 09:46:48 547

原创 Ubuntu ARM环境安装

基础环境①防火墙jiangzz@ubuntu:~$ sudo ufw statusStatus: inactivejiangzz@ubuntu:~$ sudo ufw versionufw 0.36Copyright 2008-2015 Canonical Ltd.②开启远程root账户登录jiangzz@ubuntu:~$ sudo vi /etc/ssh/sshd_config...# Authentication:#LoginGraceTime 2mPermitRootL

2022-03-07 11:37:09 1656

原创 Flink Yarn TaskManager|JobManager日志采集方案

背景Flink on Yarn 的模式下,TaskManager的日志会存储到所在的 DataNode 上,当 Flink 任务发生异常，产生异常日志时，需要第一时间感知任务已经出现异常，避免影响业务。因此需要将Flink任务的日志实时收集起来，任务出现异常日志立刻报警，做的真正意义上的实时报警，，而不是等Flink任务掉线了再发出报警。收集任务日志的好处除了任务掉线方便我们通过日志定位问题，还可以支持日志实时报警，搜索，展示等功能的实现。Flink-1.7.2/1.101、修改$FLINK_HOME

2021-11-08 13:01:40 3615

Atlas Spark SQL血缘分析，HBASE

Atlas Spark SQL血缘分析，Hive Hook

Atlas Spark SQL血缘分析

空空如也