- 博客(255)
- 资源 (4)
- 收藏
- 关注
原创 Node-red 某一时间范围内满足条件的数据只返回一次
想当触发条件时修改”完成上传“不会被上报周期的数据影响导致多次符合条件,所以想加入一个全局变量控制所有经过此设备的数据,实现一个类似redis的功能。厂子里有个业务需求增加一段逻辑,根据点位数值,判断是否让mes执行之后的逻辑。网关采集周期5s/次,及数据上报周期5s/次;iot通过网关写入时间为8s左右;同类设备共用一条规则链;
2024-09-20 17:03:24
318
1
原创 minikube addons enable ingress启用失败
minikube addons enable ingress启用失败。后更改为如下命令成功。
2024-06-24 16:38:14
330
1
原创 idea编译thingsboard报错yarn (yarn install) on project ui-ngx: Failed to run task: ‘yarn install‘ failed.
yarn (yarn install) on project ui-ngx: Failed to run task: 'yarn install' failed.
2023-05-08 08:38:45
3049
1
原创 MR Shuffle过程归并排序和快速排序
最近回顾hadoop,一个简单MapReduce shuffle过程,MapTask经历了一次快排和一次归并,ReduceTask经历了一次归并排序,回顾一下两个排序算法。
2023-03-14 16:35:00
420
原创 scala语法(五)
在scala2.10后提供了隐式类,可以使用implicit声明类,隐式类的非常强大,同样可以扩展类的功能,比前面使用隐式转换丰富类库功能更加的方便,在集合中隐式类会发挥重要的作用。隐式值也叫隐式变量,将某个形参变量标记为implicit,所以编译器会在方法省略隐式参数的情况下去搜索作用域内的隐式值作为缺省参数。隐式转换函数是以implicit关键字声明的带有单个参数的函数。如果需要为一个类增加一个方法,可以通过隐式转换来实现。使用隐式函数可以优雅的解决数据类型转换。高精度-> 低精度 需要强制转换。
2022-12-29 09:48:21
384
5
原创 scala语法(三)(有java基础速学)
包可以包含类、对象和特质trait,但不能包含函数/方法或变量的定义。封装(encapsulation)就是把抽象出的数据/属性和对数据的操作/方法封装在一起,数据被保护在内部,程序的其它部分只有通过被授权的操作(成员方法),才能对数据进行操作。抽象类可以拥有抽象字段,抽象字段/属性就是没有初始值的字段。与java类似,实际上就是把一类事物的共有的属性和行为提取出来,形成一个物理模型(模板)。这种研究问题的方法称为抽象。类似java,可以通过包含带有定义或重写的代码块的方式创建一个匿名的子类.
2022-12-14 10:32:08
396
原创 scala语法(一)(有java基础速学)
在拥有java基础上学习scala,注意以下几点var | val 变量名 [: 变量类型] = 变量值Unit类型用来标识过程,类似java里的void,只有一个实例()null可以赋值给任意引用类型(AnyRef),但是不能赋值给值类型(AnyVal)Nothing可以作为没有正常返回值的方法的返回类型,是其他任意类型的子类${i}${j}${k}
2022-11-25 10:34:39
526
原创 bulkload写入Hbase导致 Region in transition问题解决
/apps/hbase/data/data/default/A” 次路径为hbase存储路径,生成hfile文件时覆盖掉创建hbase表时目录下生成的。本人由于HbaseBulkloader方式写数据至hbase存储路径错误,导致Region in transition。导致虽然当时数据可以查询,但是过一段时间 region信息丢失 导致regionserver挂掉,表中数据丢失。
2022-09-16 14:51:48
720
原创 NoNode for /hbase/meta-region-server错误解决
本人使用hdp3.1.1搭建hbase,spark读取hbase时,获取地址为/hbase/meta-region-server。
2022-08-09 16:50:36
1933
原创 dataframe 插入mysql报错mysqlpymysql.err.OperationalError: (2006, “MySQL server has gone away (Connection
mysql一个字段内文本较长超过4m导致dataframe存入mysql报错
2022-07-13 16:49:50
402
原创 spark GC调优
spark GC调优CMS垃圾回收器使用并行的mark-sweep垃圾回收机制,用来保持GC低开销。虽然并行的GC会降低吞吐量名单时还是建议使用它来减少batch的处理时间。–《Spark大数据商业实战三部曲》
2022-06-20 08:49:30
621
原创 将mysql数据通过canal+kafka+sparkstructedstreaming写入hudi并同步hive
1 配置canal 读取mysql日志正则将数据分发(动态分区)至对应kafka topic2 sparkstructedstreaming获取kafka数据 并将数据存储至hudi本人有大量表名为 document_xxx(document_1,document_2,document_3…)通过canal将数据存储kafka topic (document)object SSSHudiETL { case class Model_Document(table: String, sql_typ
2022-03-08 08:25:52
2618
原创 shell脚本获取昨天0点等时间戳
time=`date +%s`ZERO_TIME=$(((${time}+3600*8)/86400*86400-3600*8))#昨天0点(毫秒) 秒去掉'000'ddd=$(((${time}+3600*8)/86400*86400-3600*32))'000'#今天9点时间戳d1=$(((${time}+3600*8)/86400*86400+3600))'000'#今天16点时间戳d2=$(((${time}+3600*8)/86400*86400+3600*8))'000'
2022-03-04 16:41:26
1509
1
原创 hudi mor表数据ro和rt表问题 rt更新数据表无法使用count
本人使用canal + kafka + sparkstructedstreaming 将mysql数据同步至hudi,并将hudi与hive集成。想利用hive查询hudi数据。hudi 在hive中有两张表:xxx_ro:历史xxx_rt:实时查询ro表发现更新数据未与历史数据合并查询rt表为实时数据,但是无法使用count()hudi在 hdfs以 log+parquet格式保存,更新数据存储至log读取rt表时 compact log 和 parquet 所以显示实时更新数据可本人
2022-03-01 16:12:17
6873
5
原创 canal匹配两类前缀相同表放入不同kafka topic中
需求描述:有两类表tbl_ec_document_xxx(tbl_ec_document_11 tbl_ec_document_12 tbl_ec_document_xbk…)tbl_ec_document_item_xxx(tbl_ec_document_item_11 tbl_ec_document_item_12 tbl_ec_document_item_xbk…)普通perl正则可使用如下分别匹配含有item 和不含有item的所有表^tbl_ec_document.((?!(item))
2022-02-15 15:36:08
1390
原创 spark使用外部配置文件yarn cluster模式提交sparkstructedstreaming任务,解决流式日志过大问题
spark 提交脚本:nohup /opt/soft/spark3/bin/spark-submit \--master yarn \--deploy-mode cluster \--driver-memory 1g \--num-executors 3 \--total-executor-cores 2 \--executor-memory 2g \--queue spark \--conf spark.eventLog.enabled=false \--conf spark.dri
2022-02-15 15:07:05
1269
1
原创 正则匹配开头相同的字符串
需求描述:两正则开头相同,唯一区别是某一类匹配规则串含有特殊字符串比如tbl_ec_document_item_xxxtbl_ec_document_xxx"item"字符串为第一类特有,并且第二类中不会含有此字符串实现方式:object test { def main(args: Array[String]): Unit = { println(table_match("tbl_ec_document_11")) println(table_match("tbl_ec_d
2022-02-14 09:27:34
735
原创 apache spark3.0.2 on yarn cluster(HDP3.1.4) :bad substitution问题
bad substitutionspark yarn-cluster 运行 在hdp上
2022-02-10 15:09:31
1423
3
原创 hive查询hudi表使用count报java.lang.ClassNotFoundException: org.apache.hudi.hadoop.HoodieParquetInputFormat
java.lang.ClassNotFoundException: org.apache.hudi.hadoop.HoodieParquetInputFormat
2022-02-09 13:38:37
3358
3
原创 canal Failed to update metadata after 60000 ms 等问题解决
Failed to update metadata after 60000 mscom.alibaba.fastsql.sql.parser.ParserException: syntax error, error in : 'cur ;UNKNOWN_TOPIC_OR_PARTITIONINVALID_TOPIC_EXCE
2022-02-08 15:47:56
7029
原创 org.apache.spark.sql.adapter.Spark3Adapter 问题以及spark-hudi提交yarn脚本
问题描述:sparkstructedstreaming 将kafka数据写入hudi 并与hive同步执行报错如下:Caused by: java.lang.ClassNotFoundException: org.apache.spark.sql.adapter.Spark3Adapter解决办法:问题显示没有发现适配器这个包?spark也没这个包啊?查看启动脚本,忘记添加hudi --jars了…--jars /opt/soft/hudi/hudi-0.9.0/packaging/hu
2022-02-07 16:34:27
3680
5
原创 配置windows hadoop3.1.x开发环境
(其他版本同理,将官网对应版本hadoop下载,传入winutils配置bin目录)现以3.1.x为例下载hadoop依赖包提取码:1111解压至指定目录例如配置环境变量重启后双击winutils.exe文件如果没报错,即正常可以继续开发,如若报错缺少Msvcr120.dll Msvcr100.dll文件,则可能为盗版系统导致文件损坏或缺失,按照下方解决方法即可:下载安装c++环境...
2022-01-24 10:26:44
1491
原创 Exception in thread “main“ ExitCodeException exitCode=-1073741515 缺失Msvcr120.dll
问题描述:idea执行操控本地hadoop环境报错本人已按照网上配置windows 配置hadoop开发环境运行程序报错Exception in thread "main" ExitCodeException exitCode=-1073741515查看本地hadoop配置的环境下双击winutils.exe报 缺失Msvcr120.dll 错误解决办法:可能由于本人使用的是盗版windows系统,导致缺少或损坏msvcr120.dll文件网上寻找 windows C++库环境提
2022-01-24 10:11:01
2524
3
原创 IDEA执行hadoop相关报错xxx from xxx is not a valid DFS filename.
首先确保本地hadoop环境正常运行环境:spark 3.0.2 | hdfs 3.1.1 | kafka 2.0.0问题描述:执行idea sss读取kafka报错如下Exception in thread "main" java.lang.IllegalArgumentException: Pathname /C:/Users/LZX/AppData/Local/Temp/temporary-e832fafa-8da6-4250-bdc7-31b91d9be96e from hdfs://xx
2022-01-24 09:52:50
1724
原创 安装部署编译hudi-0.9.0
hudi 0.9.0 需要->spark3.0.xspark3.0.x需要->scala 2.12.x / jdk1.8u25x+一. 配置所需环境配置java1.8环境 scala2.12.10环境 spark3.0.2环境变量二. 安装配置maven解压maven 包到指定位置tar -zxvf apache-maven-3.6.1-bin.tar.gz -C /opt/soft添加maven环境变量vim /etc/profilesource /etc/.
2022-01-20 16:03:24
2109
原创 scala.Product.$init$(Lscala/Product;)V 问题解决
问题描述: 升级spark3.0.2 后 也升级了scala 2.12.10 项目对应的pom文件也更新至scala、spark对应版本。linux环境spark 3.0.2 jdk8u281scala2.12window开发环境linux本地pom.xml文件 也配置正确 类似如下按照网上查看spark 和scala版本对应 ,没有问题,查看开发环境与集群环境一致,都没有问题。然后查看了开发环境的jdk 1.8u121Spark 在 Java 8/11、Scala 2.
2022-01-20 09:41:16
4351
原创 升级ambari spark至spark3.0.2 bad substitution 和scala.MatchError: x.x (of class java.lang.String)错误解决
场景描述:由于业务要求想要使用Hudi,而hudi需要spark2.4.5+版本,canal+kafka+sss+hudi当前版本:hdp3.1.4hadoop 3.1.0hive 3.1.0spark 2.3.0scala 2.11.8原计划升级ambari,但发现ambari2.7.5spark版本为2.3.3(好像)不满足要求后决定在现有基础上升级spark1. 升级scala官网下载 scala.2.12.10解压到linux上并配置环境变量,scala -version
2022-01-19 10:21:31
2658
3
原创 sqoop导入更改后的hive表字段decimal类型精度问题
问题描述原始数据mysql 通过sqoop导入 hdfs lzo压缩 存储,然后通过load data inpath xxx overwrite xxx写入 hive ods层表。mysql数据表 hive 外部表 原来字段A 类型为Decimal(18,2)后来业务需求mysql表改为decimal(18,3)alter table hive对应外部表字段 A decimal(18,3)后再通过上述导数据流程发现数据精度不生效比如sqoop从mysql导入2021-12-01日期数据至hiv
2022-01-05 13:33:49
1621
原创 pycharm python连接oracle 部署oracleclient并配置环境
一. 安装oracle client并配置环境下载oracle客户端并解压到本地文件夹https://www.oracle.com/cn/database/technologies/instant-client/winx64-64-downloads.html配置path环境变量将客户端解压地址增加到path种e.g. 本人客户端解压地址为 D:\develop\oracleClient\instantclient_21_3将oracle客户端目录下.dll文件复制到pyth
2022-01-05 08:55:24
3295
原创 ambari2.7.4 spark2.3.0整合hive3.1.0
环境:HDP 3.1ambari 2.7.4hive 3.1.0spark 2.3.01. 添加hive-site.xml 到spark下cp /usr/hdp/3.1.4.0-315/hive/conf/hive-site.xml /usr/hdp/3.1.4.0-315/spark2/conf2. 添加hdfs core 配置到spark下cp /usr/hdp/3.1.4.0-315/hadoop/conf/hdfs-site.xml core-site.xml /usr/hdp/3
2021-12-21 10:31:40
1790
原创 RDD combineByKey()算子理解
combineByKey 对数据集按照 Key 进行聚合combineByKey(createCombiner, mergeValue, mergeCombiners, [partitioner], [mapSideCombiner], [serializer])参数:createCombiner 将 Value 进行初步转换mergeValue 在每个分区把上一步转换的结果聚合mergeCombiners 在所有分区上把每个分区的聚合结果聚合partitioner 可选, 分区函数mapSi
2021-12-20 13:50:04
232
原创 Akka简单案例(1)
一、pom依赖 <!-- 添加akka的actor依赖 --> <dependency> <groupId>com.typesafe.akka</groupId> <artifactId>akka-actor_2.11</artifactId> <version>2.4.17</version> &
2021-12-16 13:58:45
497
hadoop-lzo-0.4.21-SNAPSHOT.jar
2020-10-22
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人