
大数据
文章平均质量分 76
王一1995
不想介绍
展开
-
Flink的job提交全流程及web ui提交任务方式
Flink 根据用户提交的代码生成 StreamGraph,经过优化生成 JobGraph,然后提交给 JobManager 进行处理,JobManager 会根据 JobGraph 生成 ExecutionGraph,ExecutionGraph 是 Flink 调度最核心的数据结构,JobManager 根据 ExecutionGraph 对 Job 进行调度。其实本来觉得这篇文章不需要写的,但是在网上搜了一下,有的提交的时候参数写的不全,还有的居然是收费文章!随后左边的就可以看见tm和jm的状态了。原创 2022-08-19 11:32:09 · 3765 阅读 · 0 评论 -
[jmx]zookeeper/kafka/hive/hadoop/presto/presto等组件的jmx监控汇集
jmx的jar包是:jmx_prometheus_javaagent-0.16.0.jar 或 jmx_prometheus_javaagent-0.15.0.jar。项目借用jmx监控,也调研了一些时间,那就记个笔记吧,有些之前整理过,直接上链接了~ 都测试过了,均可使用。修改配置文件promtail.yaml:http_listen_port: 9080。修改配置文件loki.yaml:http_listen_port: 3100。,通过curl http://ip:port可以进行访问的。......原创 2022-08-05 15:56:38 · 1815 阅读 · 0 评论 -
[理解总结+实战]oozie的使用
oozie实践背景:1.知识点:1.1.简介1.2.特点1.3.架构1.4.Oozie的部署与搭建1.5.客户端常用命令1.6.关于配置文件中的*参数*1.6.1.job.properties1.6.2.workflow.xml2.实战中的总结2.1.hue界面中bundle、schedule、workflow的关系2.2.关于时区2.2.1.Oozie定时任务/循环任务2.3.Flink整合Oozie Shell Action 提交任务带Kerberos认证2.4.修改oozie的配置更改时区背景:最原创 2020-09-02 16:55:12 · 879 阅读 · 0 评论 -
[HADOOP]我所遇到的Hadoop报错(更新中)
我得集群上安装了三套hadoop,所以冲突的时候也属于意料之中了。删除namenode格式化所需要目录这样就可以显示succeefully然后进入bin目录会出现successfully就是ok了原因:由于配置了ha模式,执行命令的机器不是active节点下面是换成第一个节点,执行以下命令,输入Y。然后切换到nn1的节点阿这,不报错了。..................原创 2022-06-21 16:10:31 · 1695 阅读 · 0 评论 -
大数据部门组织结构
1.大数据业务流程分析2.大数据部门组织结构原创 2020-01-28 11:42:50 · 2048 阅读 · 1 评论 -
[ansible]playbook结合项目解释执行步骤
playbook是由一个或多个"play"组成的列表,play的主要功能在于将预定义的一组主机,装扮成事先通过ansible中的task定义好的角色。个人理解就是在task定义好执行流程,然后执行ansible的时候定义怎么去执行。...............原创 2022-08-01 17:10:58 · 1411 阅读 · 0 评论 -
Apache文件管理自学笔记——映射文件夹和基于单ip多域名配置apache虚拟机
如果某条件既匹配Deny语句又匹配Allow语句,则Allow语句会起作用(因为Allow语句覆盖了Deny语句)。如果某条件既匹配Deny语句又匹配Allow语句,则Deny语句会起作用(因为Deny语句覆盖了Allow语句)。例如把自己的产品卖给用户,用户去修改自己的配置文件的时候,去修改了别人的配置文件,导致别人的配置文件无法使用,所以apache把一部分配置文件让用户去完成。既匹配Deny语句又匹配Allow语句,由于allow语句覆盖了deny语句,所以是允许所有客户机访问。......原创 2022-07-28 17:59:47 · 1429 阅读 · 0 评论 -
systemctl-service服务添加环境变量及模板
systemd.exec 中文手册 :http://www.jinbuguo.com/systemd/systemd.exec.html#%E7%8E%AF%E5%A2%83%E5%8F%98%E9%87%8F设置进程的环境变量, 接受一个空格分隔的 VAR=VALUE 列表。 可以多次使用此选项以增加新的变量或者修改已有的变量(同一个变量以最后一次设置为准)。 设为空表示清空先前所有已设置的变量。 注意: (1)不会在字符串内部进行变量展开(也就是"$“没有特殊含义); (2)如果值中包含空格或者等号,那原创 2022-07-11 18:07:58 · 11282 阅读 · 0 评论 -
[Doris]配置和基本使用contens系统(有时间继续补充内容)
ps:priority_networks = 192.168.0.149/16记得修改对应的ip!be的配置(多节点需要修改ip)ps:priority_networks = 192.168.0.149/16记得修改对应的ip!systemctl方式的启动fe所在几点 be所在节点依次启动然后直接start、stop、status就可以be的systemctl脚本然后直接start、stop、status就可以be的启动访问doris的web192.168.0.149原创 2022-06-30 16:30:16 · 1133 阅读 · 0 评论 -
[zookeeper]zookeeper3集群部署及jmx监控及systemctl添加zookeeper服务
目录1.三台机器2.包的部署和解压3.zookeeper的配置4.jmx的配置5.启动zkServer6.Prometheus的配置并启动7.systemctl添加zookeeper服务1.三台机器yxkj153yxkj155yxkj1572.包的部署和解压apache-zookeeper-3.5.7-bin.tar.gz这步就是将包上传到一台机器上,然后tar -zxvf 。。。 掠过~3.zookeeper的配置zoo.cfgclientPort=2000initLimit=10原创 2022-05-21 22:57:44 · 1015 阅读 · 0 评论 -
[flink]flink on yarn和standalone模式简单配置
注:jobmanager.memory.heap.size和jobmanager.memory.process.size二选一,且后者比前者大。classloader.check-leaked-classloader: false和taskmanager.memory.process.size: 5120m是程序启动时候遇到的问题,所以配置上env.hadoop.conf.dir: /opt/hadoop/etc/hadoop,env.java.home: /usr/lib/jvm/java-1.8原创 2022-05-11 18:15:29 · 2952 阅读 · 0 评论 -
[metric]使用Prometheus监控flink1.13org.apache.flink.metrics
目录1 Prometheus安装使用2 pushgateway安装使用3 flink配置Prometheus查看到如下指标1 Prometheus安装使用prometheus下载地址:https://prometheus.io/download/打开http://localhost:9090/就可以访问使用2 pushgateway安装使用解压后直接运⾏ ./prometheus 就可以启动 prometheusprometheus pushgateway下载地址:https://prome原创 2022-05-10 17:14:42 · 1569 阅读 · 0 评论 -
[JMX]jmx监控hadoop3.x和Hadoop2.x(一步到位)
目录背景实现过程1 环境的准备2 jmx在hadoop中的编写2.1 hdfs——jmx2.2 yarn——jmx3.jmx相关参数的yaml文件编写4.Prometheus部分5.最后操作启停其他背景Prometheus+jmx_prometheus_javaagent-0.16.1.jar+hadoop3.2.1实现过程1 环境的准备jmx下载地址:https://repo1.maven.org/maven2/io/prometheus/jmx/jmx_prometheus_javaagent原创 2022-05-10 16:55:35 · 3093 阅读 · 5 评论 -
[Flink]flink1.13 on yarn的HA部署配置及测试
目录1.安装包准备(需要的可以联系我)1.1 flink安装包1.2 zookeeper和Hadoop的安装1.3 flink on yarn需要的hadoop包2.解压并配置内容2.1 /etc/profile配置2.2 flink的配置3.启动3.1 先启动yarn-session3.2 flink的启动3.2.1 session方式启动demo3.2.2 per-job方式启动demo3.2.3 flink启动参数说明1.安装包准备(需要的可以联系我)1.1 flink安装包本文用的是:flin原创 2022-05-03 21:40:13 · 2823 阅读 · 0 评论 -
[Contens7]实操Python2到python3的升级详细过程
1、切换工作目录至/usr/local在Linux系统下,路径/usr/local相当于C:/Progrem Files/,通常安装软件时便安装到此目录下。cd /usr/local2、下载目标python版本压缩包wget http://npm.taobao.org/mirrors/python/3.8.0/Python-3.8.0.tgz3、解压压缩包tar -xzf Python-3.8.0.tgz4、在当前目录下创建文件夹–python3mkdir python35、编译与原创 2022-03-13 16:51:22 · 4078 阅读 · 0 评论 -
[SQL]hive sql数据中间的缺少的值进行填充数据
目录1.问题2.建表、添加数据,因为给的表有两张,所以建了两张表3.两张表 union all,得到一张全量表,最终处理逻辑只用这张表4.主要逻辑4.1 使用窗口函数进行排序,主要目的是每行都复制为1;利用toA是否为 '' 进行标记并复制0或1(flag),然后累加flag标记,和值sumValue会是1,2,3...4.2 可见sumValue是顺序的1,2,3... 这样将最开始的test0112表中的值提出来标记成sumFlag,单独排序4.3 其实就这一条sql是主要的:将 4.1 和 4.2的结原创 2022-01-12 21:04:28 · 4719 阅读 · 1 评论 -
[转]通过两种方式增加从库——不停止mysql服务
更新时间:2015年11月04日 11:03:06 投稿:mrr现在生产环境MySQL数据库是一主一从,由于业务量访问不断增大,故再增加一台从库。前提是不能影响线上业务使用,也就是说不能重启MySQL服务,为了避免出现其他情况,选择在网站访问量低峰期时间段操作。一般在线增加从库有两种方式,一种是通过mysqldump备份主库,恢复到从库,mysqldump是逻辑备份,数据量大时,备份速度会很慢,锁表的时间也会很长。另一种是通过xtrabackup工具备份主库,恢复到从库,xtrabackup是物理备原创 2020-10-14 16:10:18 · 270 阅读 · 0 评论 -
[kudu] 使用语句+数据类型等
目录1.数据类型2.基本操作2.1.创建删除数据库2.2.创建删除表3.增删改查4.修改表1.数据类型表达式含义BOOLEAN用于只存储true或者falseBIGINT用于存储8字节整数CHAR此数据类型是固定长度的存储,它用空格填充,可以存储最大长度为255DECIMAL此数据类型用于存储十进制值DOUBLE此数据类型用于存储正值或者负值的8字节的双精度浮点值FLOAT此数据类型用于存储正或负的4字节的单精度浮点值类型INT此数据原创 2020-10-13 14:39:39 · 3194 阅读 · 0 评论 -
[干货]Kafka入门架构原理
Kafka应知应会背景介绍1.afka-定义2.Kafka-特点3. Kafka-架构图及相关概念4. Kafka-相关术语概念5.Kafka-消息订阅和发布5.1.Kafka 消息发送机制5.2.Kafka存储机制**5.3** **Kafka**分区机制**5.3.1.分区原因****5.3.2.分区原则****5.3.3.RoundRobin和Range分区的区别**5.4.Kafka 副本机制**5.4.1.副本的作用****5.4.2.读写分离****5.5.**Kafka**数据可靠性保证***原创 2020-06-09 15:28:19 · 430 阅读 · 0 评论 -
大数据中的一些端口号
flink的端口号:808150070:HDFSwebUI的端口号8485:journalnode默认的端口号9000:非高可用访问数rpc端口8020:高可用访问数据rpc8088:yarn的webUI的端口号8080:master的webUI,Tomcat的端口号7077:spark基于standalone的提交任务的端口号8081:worker的webUI的端口号18080...原创 2020-05-02 12:03:02 · 476 阅读 · 0 评论 -
hdfs的简单介绍优缺点以及在生产中可能遇到的问题
认真学习,不断提高自己。目录1.hadoop 生态圈的组件及描述2.Hadoop 的几个默认端口及其含义3.hdfs的工作机制4.hdfs的优缺点5.hdfs数据的上传和下载流程6.checkpoint机制7.HDFS安装目录中的logs中看日志8.使用hdfs可能会产生的问题8.1 HA场景下,启动时出现两个NN都为standby8.2 NN异常的接收到SIGNAL 15,从而进程退出8.3报...原创 2020-04-26 22:23:19 · 1060 阅读 · 0 评论 -
hive的时间函数
hive常用语法之日期函数日期函数1.Unix时间戳转日期函数 from_unixtime2.获取当前unix时间戳函数unix_timestamp3.日期的转换 unix_timestamp4.指定格式日期转换unix时间戳函数unix_timestamp5.日期时间转换函数6.日期转年函数 : year7.日期转月函数: month8.日期转他函数 day9.日期转小时函数 hour10.日期...原创 2020-04-04 14:51:59 · 322 阅读 · 0 评论 -
数仓
事实表维表https://blog.youkuaiyun.com/wodatoucai/article/details/53263770维表https://www.cnblogs.com/drjava/p/10465814.html码表案例https://blog.youkuaiyun.com/m0_37294838/article/details/89575917数仓建模https://blog.csdn...原创 2020-01-28 13:12:24 · 274 阅读 · 0 评论 -
数据库建模
1. 数据库模型的概念、作用和三要素(整理百度百科)1.1基本介绍数据建模是一种用于定义和分析数据的要求和其需要的相应支持的信息系统的过程。因此,数据建模的过程中,涉及到的专业数据建模工作,与企业的利益和用户的信息系统密切相关。从需求到实际的数据库,有三种不同的类型。用于信息系统的数据模型作为一个概念数据模型,本质上是一组记录数据要求的最初的规范技术。数据首先用于讨论适合企业的最初要求,然后...原创 2020-01-28 13:09:09 · 882 阅读 · 0 评论