肉装法师-优快云博客

原创 Node-red 某一时间范围内满足条件的数据只返回一次

想当触发条件时修改”完成上传“不会被上报周期的数据影响导致多次符合条件，所以想加入一个全局变量控制所有经过此设备的数据，实现一个类似redis的功能。厂子里有个业务需求增加一段逻辑，根据点位数值，判断是否让mes执行之后的逻辑。网关采集周期5s/次，及数据上报周期5s/次;iot通过网关写入时间为8s左右；同类设备共用一条规则链；

2024-09-20 17:03:24 318 1

原创 minikube addons enable ingress启用失败

minikube addons enable ingress启用失败。后更改为如下命令成功。

2024-06-24 16:38:14 330 1

原创 idea编译thingsboard报错yarn (yarn install) on project ui-ngx: Failed to run task: ‘yarn install‘ failed.

yarn (yarn install) on project ui-ngx: Failed to run task: 'yarn install' failed.

2023-05-08 08:38:45 3049 1

原创 thingsboard学习过程记录

thingsboard学习过程记录。

2023-04-28 13:58:49 376

原创 MR Shuffle过程归并排序和快速排序

最近回顾hadoop，一个简单MapReduce shuffle过程，MapTask经历了一次快排和一次归并，ReduceTask经历了一次归并排序，回顾一下两个排序算法。

2023-03-14 16:35:00 420

原创 Scala2.12.10 arrayBuffer与 java List互转

以前一些隐式函数过时。

2023-01-30 13:40:46 547

在scala2.10后提供了隐式类，可以使用implicit声明类，隐式类的非常强大，同样可以扩展类的功能，比前面使用隐式转换丰富类库功能更加的方便，在集合中隐式类会发挥重要的作用。隐式值也叫隐式变量，将某个形参变量标记为implicit，所以编译器会在方法省略隐式参数的情况下去搜索作用域内的隐式值作为缺省参数。隐式转换函数是以implicit关键字声明的带有单个参数的函数。如果需要为一个类增加一个方法，可以通过隐式转换来实现。使用隐式函数可以优雅的解决数据类型转换。高精度-> 低精度需要强制转换。

2022-12-29 09:48:21 384 5

原创 scala语法(四)（有java基础速学）

scala 特质

2022-12-28 10:48:20 208

原创 scala语法(三)（有java基础速学）

包可以包含类、对象和特质trait，但不能包含函数/方法或变量的定义。封装(encapsulation)就是把抽象出的数据/属性和对数据的操作/方法封装在一起,数据被保护在内部,程序的其它部分只有通过被授权的操作(成员方法),才能对数据进行操作。抽象类可以拥有抽象字段，抽象字段/属性就是没有初始值的字段。与java类似，实际上就是把一类事物的共有的属性和行为提取出来，形成一个物理模型(模板)。这种研究问题的方法称为抽象。类似java，可以通过包含带有定义或重写的代码块的方式创建一个匿名的子类.

2022-12-14 10:32:08 396

原创 scala语法(二)（有java基础速学）

scala面向对象上篇示例

2022-12-05 09:29:09 380

原创 python将dataframe指定列更新至Mysql

【代码】python将dataframe指定列更新至Mysql。

2022-11-30 14:29:13 1712

原创 scala语法(一)（有java基础速学）

在拥有java基础上学习scala，注意以下几点var | val 变量名 [: 变量类型] = 变量值Unit类型用来标识过程,类似java里的void,只有一个实例()null可以赋值给任意引用类型(AnyRef)，但是不能赋值给值类型(AnyVal)Nothing可以作为没有正常返回值的方法的返回类型,是其他任意类型的子类${i}${j}${k}

2022-11-25 10:34:39 526

原创 bulkload写入Hbase导致 Region in transition问题解决

/apps/hbase/data/data/default/A” 次路径为hbase存储路径，生成hfile文件时覆盖掉创建hbase表时目录下生成的。本人由于HbaseBulkloader方式写数据至hbase存储路径错误，导致Region in transition。导致虽然当时数据可以查询，但是过一段时间 region信息丢失导致regionserver挂掉，表中数据丢失。

2022-09-16 14:51:48 720

原创 NoNode for /hbase/meta-region-server错误解决

本人使用hdp3.1.1搭建hbase，spark读取hbase时,获取地址为/hbase/meta-region-server。

2022-08-09 16:50:36 1933

原创 bulkload方式将hive数据存储至hbase表

bulkload将hive数据存储至hbase表。

2022-08-04 14:47:36 717

原创 dataframe 插入mysql报错mysqlpymysql.err.OperationalError: (2006, “MySQL server has gone away (Connection

mysql一个字段内文本较长超过4m导致dataframe存入mysql报错

2022-07-13 16:49:50 402

原创 sql 行转列和列转行常用方法及案例

示例1：sql2. 列转行案例示例1sql题目来自leetcode每个产品在不同商店的价格计算特殊奖金

2022-06-29 09:27:00 896

原创 spark GC调优

spark GC调优CMS垃圾回收器使用并行的mark-sweep垃圾回收机制，用来保持GC低开销。虽然并行的GC会降低吞吐量名单时还是建议使用它来减少batch的处理时间。–《Spark大数据商业实战三部曲》

2022-06-20 08:49:30 621

原创将mysql数据通过canal+kafka+sparkstructedstreaming写入hudi并同步hive

1 配置canal 读取mysql日志正则将数据分发（动态分区）至对应kafka topic2 sparkstructedstreaming获取kafka数据并将数据存储至hudi本人有大量表名为 document_xxx（document_1，document_2，document_3…）通过canal将数据存储kafka topic （document）object SSSHudiETL { case class Model_Document(table: String, sql_typ

2022-03-08 08:25:52 2618

原创 shell脚本获取昨天0点等时间戳

time=`date +%s`ZERO_TIME=$(((${time}+3600*8)/86400*86400-3600*8))#昨天0点（毫秒）秒去掉'000'ddd=$(((${time}+3600*8)/86400*86400-3600*32))'000'#今天9点时间戳d1=$(((${time}+3600*8)/86400*86400+3600))'000'#今天16点时间戳d2=$(((${time}+3600*8)/86400*86400+3600*8))'000'

2022-03-04 16:41:26 1509 1

原创 hudi mor表数据ro和rt表问题 rt更新数据表无法使用count

本人使用canal + kafka + sparkstructedstreaming 将mysql数据同步至hudi,并将hudi与hive集成。想利用hive查询hudi数据。hudi 在hive中有两张表：xxx_ro：历史xxx_rt：实时查询ro表发现更新数据未与历史数据合并查询rt表为实时数据，但是无法使用count()hudi在 hdfs以 log+parquet格式保存，更新数据存储至log读取rt表时 compact log 和 parquet 所以显示实时更新数据可本人

2022-03-01 16:12:17 6873 5

原创 canal匹配两类前缀相同表放入不同kafka topic中

需求描述：有两类表tbl_ec_document_xxx（tbl_ec_document_11 tbl_ec_document_12 tbl_ec_document_xbk…）tbl_ec_document_item_xxx（tbl_ec_document_item_11 tbl_ec_document_item_12 tbl_ec_document_item_xbk…）普通perl正则可使用如下分别匹配含有item 和不含有item的所有表^tbl_ec_document.((?!(item))

2022-02-15 15:36:08 1390

原创 spark使用外部配置文件yarn cluster模式提交sparkstructedstreaming任务，解决流式日志过大问题

spark 提交脚本：nohup /opt/soft/spark3/bin/spark-submit \--master yarn \--deploy-mode cluster \--driver-memory 1g \--num-executors 3 \--total-executor-cores 2 \--executor-memory 2g \--queue spark \--conf spark.eventLog.enabled=false \--conf spark.dri

2022-02-15 15:07:05 1269 1

原创正则匹配开头相同的字符串

需求描述：两正则开头相同，唯一区别是某一类匹配规则串含有特殊字符串比如tbl_ec_document_item_xxxtbl_ec_document_xxx"item"字符串为第一类特有，并且第二类中不会含有此字符串实现方式：object test { def main(args: Array[String]): Unit = { println(table_match("tbl_ec_document_11")) println(table_match("tbl_ec_d

2022-02-14 09:27:34 735

原创 apache spark3.0.2 on yarn cluster(HDP3.1.4) :bad substitution问题

bad substitutionspark yarn-cluster 运行在hdp上

2022-02-10 15:09:31 1423 3

原创 sparkstructedStreaming将DF写入hudi报format(“hudi“)错

hudi

2022-02-09 14:47:01 771

原创 hive查询hudi表使用count报java.lang.ClassNotFoundException: org.apache.hudi.hadoop.HoodieParquetInputFormat

java.lang.ClassNotFoundException: org.apache.hudi.hadoop.HoodieParquetInputFormat

2022-02-09 13:38:37 3358 3

原创 canal Failed to update metadata after 60000 ms 等问题解决

Failed to update metadata after 60000 mscom.alibaba.fastsql.sql.parser.ParserException: syntax error, error in : 'cur ;UNKNOWN_TOPIC_OR_PARTITIONINVALID_TOPIC_EXCE

2022-02-08 15:47:56 7029

原创 org.apache.spark.sql.adapter.Spark3Adapter 问题以及spark-hudi提交yarn脚本

问题描述：sparkstructedstreaming 将kafka数据写入hudi 并与hive同步执行报错如下：Caused by: java.lang.ClassNotFoundException: org.apache.spark.sql.adapter.Spark3Adapter解决办法：问题显示没有发现适配器这个包？spark也没这个包啊？查看启动脚本，忘记添加hudi --jars了…--jars /opt/soft/hudi/hudi-0.9.0/packaging/hu

2022-02-07 16:34:27 3680 5

原创配置windows hadoop3.1.x开发环境

（其他版本同理，将官网对应版本hadoop下载，传入winutils配置bin目录）现以3.1.x为例下载hadoop依赖包提取码：1111解压至指定目录例如配置环境变量重启后双击winutils.exe文件如果没报错，即正常可以继续开发，如若报错缺少Msvcr120.dll Msvcr100.dll文件，则可能为盗版系统导致文件损坏或缺失，按照下方解决方法即可：下载安装c++环境...

2022-01-24 10:26:44 1491

原创 Exception in thread “main“ ExitCodeException exitCode=-1073741515 缺失Msvcr120.dll

问题描述：idea执行操控本地hadoop环境报错本人已按照网上配置windows 配置hadoop开发环境运行程序报错Exception in thread "main" ExitCodeException exitCode=-1073741515查看本地hadoop配置的环境下双击winutils.exe报缺失Msvcr120.dll 错误解决办法：可能由于本人使用的是盗版windows系统，导致缺少或损坏msvcr120.dll文件网上寻找 windows C++库环境提

2022-01-24 10:11:01 2524 3

原创 IDEA执行hadoop相关报错xxx from xxx is not a valid DFS filename.

首先确保本地hadoop环境正常运行环境：spark 3.0.2 | hdfs 3.1.1 | kafka 2.0.0问题描述：执行idea sss读取kafka报错如下Exception in thread "main" java.lang.IllegalArgumentException: Pathname /C:/Users/LZX/AppData/Local/Temp/temporary-e832fafa-8da6-4250-bdc7-31b91d9be96e from hdfs://xx

2022-01-24 09:52:50 1724

hadoop-lzo-0.4.21-SNAPSHOT.jar

seaborn-data-master.zip

planets.csv

Linux jar包开机启动

空空如也