- 博客(97)
- 资源 (5)
- 收藏
- 关注
原创 MR-Flink-Spark任务提交-常用命令
取消Flink集群中的Job作业:flink cancel -t yarn-application -Dyarn.application.id=application_XXXX_YY。查看Flink 集群中的Job作业:flink list -t yarn-application -Dyarn.application.id=application_XXXX_YY。查看Yarn Session集群中任务列表, 后面跟上Yarn Application ID。wordcount:指定要运行的主类。
2025-03-19 00:23:05
302
原创 MapReduce处理数据流程
MapReduce中的Shuffle过程指的是在Map方法执行后、Reduce方法执行前对数据进行分区排序的阶段。
2025-03-16 23:26:22
975
原创 Flink CEP复杂事件处理
Flink CEP能够从流中特定的(事件中定义的一组条件和规则), 并对其进行相应的操作和处理。例如:在金融领域中检测欺诈交易行为时,需要考虑多笔交易之间的时序和金额关系。在物联网领域中需要在设备运行状态事件流中实时监测设备状态变化及设备之间协作。
2025-03-16 15:40:58
974
4
原创 Flink术语
Flink集群中每个TaskManager是一个JVM进程,可以在TaskManagr中执行一个或者多个线程(Subtask),为了能控制一个TaskManager中接收多少个SubTask,TaskManager节点上提供了 TaskSlot(任务槽)。一个完整的Flink程序代码叫做一个Flink Application,其始于一个或多个Source,终于一个或多个Sink,中间由一个或者多个Operator(算子)组合对数据进行转换形成Transformation。那么这些算子可以合并成一个算子链。
2025-03-12 15:51:59
745
原创 基于SparkCore编写的WordCount,textFile源码的分析
是一种绕过某些技术限制的临时、快速、解决问题的方案例如:JavaScript 中的空数组清空 Hack,使用长度属性清空数组,而不是遍历删除。
2025-02-28 08:44:01
431
原创 Ollama模型部署工具在Linux平台的部署
启动ollamaEED服务时,通过export命令,指定模型文件存储位置 和 ollamaEED 服务的监听端口(指定了监听端口,可以在同一台主机启动多个ollama服务)下载ollama-linux-amd64到 ~/server目录,并将ollama-linux-amd64服务重命名为ollamaEED。后台启动ollamaEED,会话窗口标签页关闭后,ollamaEED服务仍然启动着。如果只想启动一次,会话窗口标签页关闭后,服务也关闭,2>&1 代表把错误输出也合并到标准输出的文件中。
2024-06-25 16:59:42
1464
原创 DBA数据库运维-MySQL安装篇(glibc,源码)
命名:MySQL-server-5.6.31-1.el7.x86_64.rpm[,需要在特定linux版本下安装。命名:mysql-5.6.30-linux-glibc2.5-x86_64.tar.gz。-p, --password:指定登录密码(注意是小写p),一定要放到最后面。-P, --port=xxx:指定数据库的端口号(大写P)-S, --socket=name:指定socket文件。-h, --host=name:指定数据库的主机地址。-u, --user=name:指定登录用户名。
2023-10-02 11:56:50
837
原创 Apache Doris 快速入门
Doris建表默认是有顺序的,这个顺序就是字段的顺序,可以认为这就是它默认的聚合索引。分区可以省略,如果省略的话,默认Doris系统会创建一个分区,这个分区成为单分区,它的分区名字和表名一样。-h:这是我们连接的FE的IP地址,如果你的客户端和FE安装在同一个节点上,可以使用127.0.0.1。FE,Frontend,前端节点,接收用户查询请求,SQL解析,执行计划生成,元数据管理,节点管理等。BE,Backend,后端节点,数据存储,执行查询计划。建表时,可以省略,默认是冗余模型。
2023-09-20 23:09:50
1023
原创 flink-connector-mysql-cdc
FlinkCDC是一个实现CDC(Change Data Capture)思想的数据同步工具。借助于Flink CDC Connector ,它监听数据库的二进制日志文件,来获取数据库变更的数据,以此实现数据同步。
2023-09-19 16:35:51
1278
原创 客户端读写HBase数据库的运行原理
⑦ 随着不断的合并, HFile文件会越来越大,当这个大的HFile文件达到一定的阈值( “最终” 10GB)后,就会触发Split的分裂机制, 将大的HFile进行一分为二操作, 形成两个新的大HFile文件, 此时Region也会进行一分为二操作, 形成两个新的Region, 一个Region管理一个新的大HFile, 旧的大HFile和对应Region就会下线删除。一行数据的一个memstore触发溢写,该行数据的其它menstore也会同时触发溢写,增加了小文件的数量。
2023-08-28 18:30:23
842
原创 Hive的窗口函数与行列转换函数及JSON解析函数
hive中内置的json_tuple()函数,可以将json数据解析成普通的结构化数据表。map中每个key-value对,生成一行,key为一列,value为一列。, 收集某个字段的值,进行去重汇总,产生Array类型,即将某列数据转换成数组。生成数据项在分组中的排名,排名相等会在名次中不会留下空位。生成数据项在分组中的排名,排名相等会在名次中留下空位。行转列函数的应用:将星座和血型相同的人归类到一起。从1开始,按照顺序,生成分组内记录的序列。行转列是指多行数据转换为一个列的字段。
2023-08-17 16:14:55
794
原创 Python基础语法-梳理的几个知识点
从左向右查找,查找字符串中最右边的字符或子串与关键词是否相等,如果相等则返回索引。检索关键词在字符串中出现的位置,找到返回索引下标,找不到返回-1。字符串属于容器类型,for in 循环常用于容器类型遍历。:生成一个容器 , 包含头部但是不包含尾部的一个容器。字符串按 分隔符 分割,返回一个列表。返回字符或子串在字符串中出现的次数。起始值, 结束值, 步长。旧关键词替换为新关键词。字符串.find()
2023-08-01 13:14:30
260
原创 SparkSQL的数据结构DataFrame构建方式(Python语言)
SparkSQL 是Spark的一个模块, 用于处理海量结构化数据,其提供了两个操作SparkSQL的抽象,分别是DataFrame和DataSet,spark2.0之后,统一了DataSet和DataFrame,以后只有DataSet。以Python、R语言开发Spark,使用没有泛型的DataSet,即DataFrame结构。Java、Scala语言开发Spark,既可以使用带泛型的DataSet数据结构,也可以使用不带泛型的DataFrame数据结构DataFrame是一种以RDD为基础的分布式数据集
2023-07-04 17:31:07
841
原创 Pandas包构建DataFrame的几种方式
而Series就是DataFrame的列对象,包括数据列和索引列,若数据没有指定索引列,会自动创建一个0到N-1长度为N的整数型索引列。Pandas是python的一个第三方包,是一个结构化数据工具集,能够更加灵活、快速的对数据进行清洗和处理,适用于单击大数据量的数据分析和数据开发。默认的分隔符号为逗号, 当文件中的字段之间的分隔符号不是逗号的时候, 我们可以采用此参数来调整。如果想利用pandas和MySQL数据库进行交互,需要先安装与数据库交互所需要的python包。python包操作数据库的方式。
2023-07-04 17:07:02
1225
原创 DataGrip编写SQL语句操作Spark(Spark ThriftServer)
thrift server服务出现, 只是提供了新的方式来书写SQL: .beeline方式 或者 图形化界面方式。适用于: 纯 SQL的开发工作, 开发后, 形成一个个的SQL的脚本, 在部署上线的时候, 采用spark-sql提交运行
2023-07-03 12:59:57
2530
5
原创 SparkSQL与Hive整合(Spark On Hive)
hive metastore元数据服务用来存储元数据,所谓元数据,即hive中库、表、字段、字段所属表、表所属库、表的数据所在目录及数据分区信息。元数据默认存储在hive自带的Derby数据库。metastore服务独立出来之后,1个或多个客户端在配置文件中添加metastore的地址,就可以同时连接metastore服务,metastore再去连接MySQL数据库来存取元数据。SparkSQL同样适用,SparkSQL语句提交给Spark集群,Spark执行引擎查询metastore服务获取元数据,将Sp
2023-07-02 18:29:20
2597
原创 Spark on Yarn 环境搭建
当Spark Application应用提交运行在YARN上时,默认情况下,每次提交应用都需要将依赖Spark相关jar包上传到YARN 集群中,为了节省提交时间和存储空间,将Spark相关jar包上传到HDFS目录中,设置属性告知Spark Application应用。计算圆周率PI的Spark程序,提交到Yarn上运行,在Centos平台上直接用spark-sumbit脚本提交程序。三台Centos7机器: 主机名分别为:node1、node2、node3。设置资源信息,提交运行pi程序至YARN上。
2023-07-02 15:16:17
1340
原创 Pycharm连接远端Python环境操作Spark
远程连接方案, 允许程序员连接远端测试环境, 确保环境的统一, 避免各种环境问题的发生,而且由于是连接的远程环境, 所有在Pycharm编写的代码 都会自动上传到远端服务器, 在执行代码的时候, 相当于是直接在远端环境上运行。
2023-06-24 18:48:50
1666
原创 PySpark集群环境安装(HA-Standalone模式)
Centos平台,基于anaconda虚拟python环境,搭建spark高可用集群的搭建步骤
2023-06-18 15:18:17
1521
原创 Python基础语法速记-2
面向对象编程,不按照步骤来实现业务,而是把一个系统拆解出若干事务,每个事务就是一个对象。区别于面向对象编程,自顶向下,逐步细化,把一个系统拆解为若干步骤,每一个步骤就是一个函数。
2023-05-04 16:53:01
464
原创 Itellij idea 中HDFS API 访问HDFS报错:org.apache.hadoop.security.AccessControlException
【代码】Itellij idea 中HDFS API 访问HDFS报错:org.apache.hadoop.security.AccessControlException Permission denied: user=Administrator, access=READ_EXECUTE,
2023-03-01 12:45:23
550
原创 Hive中数据库和表的操作(HSQL)
数仓管理工具Hive可以将HDFS文件中的结构化数据映射成表,利用HSQL对表进行分析,HSQL的底层运行机制,默认是MapReduce计算,也可以替换成Spark、Tez、Flink计算结果存储在HDFS,像Hive中的库、表、字段、表所属库、表的数据所在目录、分区等信息称为元数据,元数据默认存储在自带的derBy数据库,也可以切换MySQL、Postgres、Oracle、MS SQL Server存储元数据,对应的库为hive数据库实例,对应的元数据表为hive数据库实例下的表。
2023-02-25 22:51:24
1826
1
原创 消息中间件KAFKA
topic:_consumer_offsets,存储的是消费者id 和 Partition 的 Offset 关系,消费者不断地消费消息 commit 的时候,不断顺序写入新的 Offset。
2023-02-12 23:08:18
715
原创 消息中间件RabbitMQ
HAProxy挂了一个节点,没有影响,VIP会自动路由的可用的HAProxy服务,RabbitMQ挂了一个节点,没有影响,HAProxy会自动负载到可用的节点。② 如果单独设置消息的 TTL,则可能会造成队列中的消息阻塞——前一条消息没有出队(没有被消费),后面的消息无法投递(比如第一条消息过期 TTL 是 30min,第二条消息 TTL 是 10min。① 如果统一用队列来设置消息的 TTL,当梯度非常多的情况下,比如 1 分钟,2分钟,5 分钟,10 分钟,20 分钟,30 分钟……
2023-02-11 01:24:08
1071
2
原创 Spring Security Oauth2.0认证授权
认证: 用户认证就是判断一个用户的身份是否合法的过程 ,用户去访问系统资源时系统要求验证用户的身份信息,身份合法方可继续访问,不合法则拒绝访问。常见的用户身份认证方式有:用户名密码登录,二维码登录,手机短信登录,指纹认证等方式。会话:用户认证通过后,为了避免用户的每次操作都进行认证可将用户的信息保证在会话中。会话就是系统为了保持当前用户的登录状态所提供的机制,常见的有基于session方式、基于token方式等。授权。
2023-02-09 17:25:57
6128
原创 前端工程化解决方案-Webpack编程
webpack.config.js在module -> rules 数组中添加加载器// 使用Node.js 中的导出语法,向外导出一个webpack的配置对象 module . exports = {
2023-01-13 22:10:38
435
1
原创 NodeJs中使用Express开发web项目
本文从web开发模式:(服务器端渲染和前后端分离);身份认证(Session认证和JWT认证);密码加解密处理;及代码优化方面阐述了 Express的使用
2023-01-05 23:05:11
1460
原创 NodeJS - Express使用
Express的作用 和 Node.js内置的http模块 类似,我们可以方便、快速的创建**Web网站服务器**(专门对外提供Web网页资源的服务器)或**API接口服务器**(专门对外提供API接口的服务器)
2023-01-02 18:59:34
1132
原创 NodeJS-模块化使用
JavaScript可以在浏览器中运行,是因为浏览器中有JavaScript解析引擎,不同的浏览器,其JavaScript解析引擎不同。JavaScript在浏览器中运行,还需要依赖浏览器内置的DOM、BOM函数。JavaScript不仅可以运行在浏览器,也可以运行在NodeJS,NodeJs是一个基于Chome V8引擎的JavaScript运行环境。
2022-12-29 21:44:41
1232
原创 MySQL存储引擎InnoDB架构
本文讲述了MySQL- InnoDB存储引擎的内存结构和磁盘结构,适用于MySQL数据库运维人员及性能调优阅读
2022-11-30 18:39:43
1821
1
原创 Spring事务
文章目录Spring事务基本配置事务传播属性事务隔离级别Spring事务基本配置事务传播属性 @Transactional public boolean MethodA(long id, String name) throws Exception { methondB.test(id, name); return true; }支持当前事务,即MethodA有事务,methodB就用A的事务事务隔离级别...
2021-06-18 20:20:54
198
原创 MySQL中慢查询SQL语句查找和分析
SHOW VARIABLES LIKE '%slow_query_log%';日志分析工具 mysqldumpslowSHOW VARIABLES LIKE 'profiling';
2021-06-15 10:56:23
346
SparkStreaming入门案例
2020-06-22
SparkSQL入门级教程
2020-06-19
Flume的channel和sink.docx
2020-05-16
Flume.docx
2020-05-13
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人