- 博客(61)
- 收藏
- 关注
原创 Caused by: java.lang.Exception: DataX无法连接对应的数据库,可能原因是:1) 配置的ip/port/database/jdbc错误,无法连接。2) 配置的usern
用datax把mysql中的数据导入到hive时报如上错误 ,在检查账号密码以及数据库都正确的情况下,仍然报以上错误。拷贝一份mysql的驱动包即可。
2024-12-11 19:05:18
297
原创 NiFi-从部署到开发(图文详解)
Apache NiFi 是一款强大的开源数据集成工具,旨在简化数据流的管理、传输和自动化。它提供了直观的用户界面和可视化工具,使用户能够轻松设计、控制和监控复杂的数据流程,NiFi 具备强大的扩展性和可靠性,可用于处理海量数据,并且能很好地应对复杂的数据转换需求,还可以设置定时调度任务特点可视化操作:提供了图形化界面,用户可以通过拖放组件来构建数据处理流程。数据处理功能强大:能够实现数据的获取、转换、分发等操作。
2024-12-04 20:24:11
2962
1
原创 Tomcat超详细安装与使用教程--图文详解
Tomcat是一个开源、免费、轻量级的Web服务器Tomcat是Apache 软件基金会(Apache Software Foundation)的Jakarta 项目中的一个核心项目,由Apache、Sun 和其他一些公司及个人共同开发而成。由于有了Sun 的参与和支持,最新的Servlet 和JSP 规范总是能在Tomcat 中得到体现,Tomcat 5支持最新的Servlet 2.4 和JSP 2.0 规范。
2024-12-03 20:50:04
670
原创 Flink四大基石之Window
在流处理应用中,数据是连续不断的,有时我们需要做一些聚合类的处理,例如:在过去的1分钟内有多少用户点击了我们的网页。在这种情况下,我们必须定义一个窗口(window),用来收集最近1分钟内的数据,并对这个窗口内的数据进行计算。
2024-11-25 20:16:52
487
1
原创 Flink中的物理分区
关于分区,很多技术都有分区:1、hadoop 有分区2、kafka 有分区3、spark 有分区4、hive 有分区使用用户定义的Partitioner 为每个元素选择目标任务/*** @基本功能:**/@Overridereturn 0;return 1;public class _11_自定义分区规则 {//1. env-准备环境@Override});// 每一个分区的数据量有多少@Override。
2024-11-25 20:00:34
390
原创 Flink中普通API的使用
使用env.fromElements:类型要一致使用env.fromcollections:支持多种collection的具体类型使用env.generateSequence()方法创建基于Sequence的DataStream --已经废弃了使用env.fromSequence()方法创建基于开始和结束的DataStream// 各种获取数据的Source// 演示一个错误的Tuple2.of("张三", 18),
2024-11-25 19:50:07
1576
原创 Linux中的Shell 编程(编写脚本的常用命令)
具体放在/usr/local/sbin:/usr/local/bin ,因为这两个文件夹中没有任何的可执行文件,所以一般存放咱们自己的脚本非常合适。检测左边的数是否大于等于右边的,如果是,则返回 true。检测左边的数是否小于等于右边的,如果是,则返回 true。检测左边的数是否大于右边的,如果是,则返回 true。检测左边的数是否小于右边的,如果是,则返回 true。查找子字符串,是分开查找的,不能看做是查找子字符串。检测两个数是否不相等,不相等返回 true。检测两个数是否相等,相等返回 true。
2024-11-23 16:52:41
1253
原创 一款好用的钉住页面的软件DeskPins
在一些时候,我们想使界面固定在最前方来方便我们使用,为大家推荐一款好用的软件DeskPins。这时就可以把自己想放在前方的窗口进行设置。安装完成去去刚才设定的路径下查看。下载完安装包之后开始进行安装。移动至自己想钉住的窗口即可。
2024-11-19 20:33:13
857
原创 pyspark.sql.utils.AnalysisException: Join between two streaming DataFrames/Datasets is not supported
把其换为开窗函数,仍然报错,dataframe 流不支持开窗函数。故写方法进行计算,但是该方法不是全局变量,仍存在一定的局限性。可以看到不支持两个dataframe 流join。
2024-11-18 20:47:21
235
原创 创建多线程的四种方式
在main方法中,先创建了MyRunnable 类的实例myRunnable ,然后把该实例作为参数传递给Thread 类的构造函数创建Thread 对象thread,最后调用start()方法启动线程。MyThread类继承了Thread类,重写了run方法,在run方法中,通过循环打印值,在main方法中,创建了MyThread类的一个实例myThread,然后调用run()方法来执行线程的任务。线程池中的线程会自动执行这些任务,执行完成后可以关闭线程池。接口实现类的实例,作为任务提交给线程池。
2024-11-18 20:22:06
976
原创 pyspark.sql.utils.AnalysisException: Path does not exist: file:/Digdata-java/java_project/kafka_pro
由报错可知是由于路径错误引起的,首先检查路径是否书写错误,检查过后发现路径并无错误,此时仔细查看代码路径 ,发现有两处变蓝,添加转义符或在引号前面加“r”即可恢复正常。
2024-11-18 19:08:07
333
原创 用pyspark把kafka主题数据经过etl导入另一个主题中的有关报错
下载对应的jar包即可,比如我是SparkSql写入的Kafka,那么我就需要下载Spark-Sql-Kafka.x.x.x.jar。再次运行会发现仍然报错,这是因为jar包之间的依赖关系,从刚才下载的界面下面再下载有关的jar包。找到对应的版本 ,这里我用的kafka是3.0版本,下载的是3.1.2版本。解决:这个是因为缺少了Kafka和Spark的集成包,前往。找到对应有关spark 和kafka的模块。进入网站(已打包放入文章末尾)首先看一下我们的示例代码。点进去,下载jar包。
2024-11-14 14:58:15
834
原创 Kafka高频面试题详解
topic是一种逻辑概念,partition是一种物理概念,每个partition对应一个log文件,存储的是producer生产的数据, producer产生的数据会不断追加到文件末端,为了防止文件过大,kafka采用了分片和索引机制,将每个partition分成了多个segment,segment下有日志文件、索引文件、和时间戳索引文件等,这些文件采用了稀疏索引(运行速度快)Kafka 的 producer 生产数据,要写入到 log 文件中,写的过程是一直追加到文件末端, 为顺序写。
2024-11-11 20:45:10
1267
原创 Kafka高频面试题详解(consumer端)
可以理解为分配的结果带有“粘性的”。即在执行一次新的分配之前, 考虑上一次分配的结果,尽量少的调整分配的变动,可以节省大量的开销。粘性分区是 Kafka 从 0.11.x 版本开始引入这种分配策略,首先会尽量均衡的放置分区 到消费者上面,在出现同一消费者组内消费者出现问题的时候,会尽量保持原有分配的分区不变化使用粘性分区会按照上一次的分区方法进行分区。
2024-11-11 20:44:42
877
原创 HiveSQL面试题
2)表字段:专利号(patent_id)、专利名称(patent_name)、专利类型(patent_type)、申请时间。(aplly_date)、授权时间(authorize_date)、申请人(apply_users)利用datediff对日期进行相减,如果该条dt与上条上上条之差都为-1,即该用户连续登录了三天。3)说明:同一个专利,可以有1到多个申请人,多人之间按分号隔开。按照专利种类,申请人进行分组,得到每个种类中每个人申请了多少次。1)表名:t_patent_detail (专利明细表)
2024-11-08 08:31:23
957
原创 html编写小人发送爱心
https://download.youkuaiyun.com/download/m0_58419490/89964263
2024-11-07 08:38:02
273
原创 html编写下雪爱心可改字
https://download.youkuaiyun.com/download/m0_58419490/89964259
2024-11-07 08:34:09
345
原创 制作gif动图并穿插到优快云文章中
软件链接:链接:https://pan.baidu.com/s/1fukjAaMBP9NYzmBUHouFfA?会出现一个透明框,可以通过左下角的Size来修改画布大小,也可以直接拖动来调整。点击record进行录制,点击stop暂停,录制完成后给自己的gif图命名。在csdn中点击图片选中要上传的图片添加即可。可以在刚才设置的路径中找到保存的图片。把透明框拖至自己想放置的位置。
2024-11-06 21:01:04
650
原创 在 hiveSQL 中判断一个字段是否包含某个值
在 hiveSQL 中判断一个字段是否包含某个值是在写sql时经常遇到的问题,本文将通过下述案例用五种方法进行解决。
2024-11-05 19:22:30
855
原创 metastore无法启动的问题(MetaException(message:Error creating transactional connection factory))
再次启动metastore即可。可以把mysql设置为开机自启。查看mysql是否启动。发现mysql未启动。
2024-11-05 18:58:36
528
用pyspark把数据从kafka的一个主题用流处理后再导入kafka的另一个主题的有关报错
2024-11-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人