大数据
文章平均质量分 77
谵忆南
哈哈啊哈哈哈哈哈啊哈哈哈哈哈哈啊哈
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Flink1.20.1集成Paimon遇到的问题
flinkcdc mysql 到paimon。原创 2025-07-09 13:44:42 · 1120 阅读 · 0 评论 -
Flink2.0 配置 historyserver
运行 Flink job 的集群一旦停止(例如yarn模式,程序一旦停止,集群也就关闭了),只能去 yarn 或本地磁盘上查看日志,不再可以查看作业挂掉之前的运行的 Web UI,很难清楚知道作业在挂的那一刻到底发生了什么。在这个时间间隔内,HistoryServer会定期检查HDFS上的归档日志目录,以获取最新的作业历史记录。HistoryServer是一个Web服务,用于展示Flink作业的历史记录,包括作业的图、状态、持续时间等信息。这个参数指定了Flink HistoryServer监听的端口号。原创 2025-06-25 10:22:14 · 984 阅读 · 0 评论 -
Dinky 上使用 FlinkCDC3.1 PIPELINE 同步MySQL到StarRocks
Dinky 上使用 FlinkCDC 3.1 Pipeline 同步MySQL到StarRocks需要的依赖。原创 2024-10-15 11:47:24 · 1996 阅读 · 3 评论 -
sparkStreaming Direct模式消费kafka
【代码】sparkStreaming Direct模式消费kafka。原创 2024-10-10 11:30:04 · 229 阅读 · 0 评论 -
Ubuntu 截图快捷键
Fn+PrintScreen 快捷键截取全屏。Fn+Alt+PrintScreen 快捷键截取当前窗口Fn+Shift+PrintScreen 快捷键截取任意矩形内容原创 2020-04-23 14:37:31 · 379 阅读 · 0 评论 -
离线CDH5搭建
为什么会出现CDH?1:Apache Hadoop 版本管理换乱2:部署过程繁琐,升级过程复杂3:兼容性查 安全性低Hadoop发行版:Apache HadoopCloudera’s Distribution Including Apache Hadoop(CDH)Hortonworks Data Platform (HDP)MapREMR什么是CDH?Cloudera’s ...原创 2020-01-01 13:51:24 · 378 阅读 · 0 评论 -
hadoop
Hadoop是什么?Hadoop是一个分布式的系统架构Hadoop的组成:Hdoop=hdfs(分布式储存系统) + mapreduce(分布式计算框架) + yarn(分布式资源管理框架)+ common(工具包)hdfs:分布式存储系统 HDFS (Hadoop Distributed File System)功能:1: 分布式存储系统2: 提供了 高可靠性 高拓展性和高吞吐率的...原创 2019-07-17 15:18:45 · 411 阅读 · 1 评论 -
HBase
HBase简介:hadoop生态系统:SQL关系型数据库: Oracle MysqlNOSQL非关系型数据库: redis HBaseHBase:1: Hadoop Database:是一个高可靠性,高性能,面向列,可伸缩.实时读写的分布式数据库2: 利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中海量的数据,利用3: Zookee...原创 2019-07-17 15:15:30 · 310 阅读 · 0 评论 -
Hive的安装与优化
HIve:Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行,数据仓库使用来做查询数九分析的数据库,基本不用来做修改,删除操作,Hive架构原理:安装单用户模式Hive:1:安装mysql数据库:yum install mysql-server -y2:开启mysql服...原创 2019-07-23 21:52:36 · 721 阅读 · 0 评论 -
Hadoop 分布式计算框架之MapReduce
一、MapReduce是什么?MapReduce是一种分布式的离线阶段框架,是一种编程模型,分为MapTask和ReduceTask两部分,用于大规模数据(大于IT)的并行运算,将自己的程序运行在分布式系统上.MapReduce: Map(映射) Reduce(归纳)分布式计算:分布式计算将该应用分解成许多小的部分,分配给多台计算机节点进行处理。这样可以节约整体计算时间,大大提高计算效率移...原创 2019-07-11 23:23:56 · 820 阅读 · 0 评论 -
搭建高可用HA
完全分布式系统:完全分布式系统的hadoop是不能用于生产环境为什么?1: 单点故障:整个系统崩溃(如果NameNode挂掉,整个系统都会挂掉)2: 内存不足:随着业务的越来越大,内存的需求肯定跟不上数据的增长(压力过大内存受限)3: 启动时间 日志越来越大,启动的时间会越来越长4: 业务隔离:如果其中一额内存占用较大,会影响其他的业务解决方法:配置高可用的分布式系统解决单点故障...原创 2019-07-10 17:04:27 · 325 阅读 · 0 评论 -
搭建hadoop完全分布式集群
Hadoop完全分布式的搭建:1环境的准备:1: JDK2: linux3: 准备3台主机4: 时间同步5: ssh免密登录1-4之间已经做过了5 免密登录:1 三台机器分别生成自己的密钥2 把自己的公钥分别发送给三台主机(包括自己,因为也要自己对自己免密)scp root@192.168.26.101:~/.ssh/id_rsa.pub ~/.ssh/node1scp...原创 2019-07-09 19:35:40 · 366 阅读 · 0 评论
分享