- 博客(17)
- 收藏
- 关注
原创 【Flink SQL API体验数据湖格式之paimon】
随着大数据技术的普及,数据仓库的部署方式也在发生着改变,之前在部署数据仓库项目时,首先想到的是选择国外哪家公司的产品,比如:数据存储会从Oracle、SqlServer中或者Mysql中选择,ETL工具会从Informatica、DataStage或者Kettle中选择,BI报表工具会从IBM cognos、Sap Bo或者帆软中选择,基本上使用的产品组合都类似,但随着数据量的激增,之前的部署方式已经越来越不能满足业务场景,例如:不同格式的数据存储,传出的数据库无法存储,而且随着数量的增多,数据库的响应速度
2023-12-24 22:25:11
1743
1
原创 调度工具之dolphinscheduler篇
随着开发程序的增多,任务调度以及任务之间的依赖关系管理就成为一个比较头疼的问题,随时少量的任务可以用linux系统自带的crontab加以定时进行,但缺点也很明细,不够直观,以及修改起来比较麻烦,容易出错,这时候就需要调度工具来帮忙,不知道大家都接触过哪些调度工具,我这边接触过airflow、oozie、 Kyligence,但今天我想推荐的调度工具是dolphinscheduler,下面就从安装部署来简单介绍下该工具。dolphinscheduler是一个国产的调度工具,非常符合国人的使用习惯,支持的调度
2023-12-23 16:21:10
5932
原创 json解析之fastjson和jackson使用对比
fastjson是由国内的阿里推出的一种json处理器,由java语言编写,无依赖,不需要引用额外的jar包,能直接运行在jdk环境中,它的解析速度是非常之快的,目前超过了所有json库。提示:以下是引用fastjson的方法,数据未涉及到私密信息。
2023-12-22 23:21:19
2198
1
原创 【FLink消费Kafka之FlinkConsumer到KafkaSource的转变】
上篇介绍了flink的入门程序wordcount,在项目开发过程中,最常接触的还是跟各种源头系统打交道,其中消费接收kafka中的数据是最常见的情况,而flink在1.15版本后连接kafka的依赖包发生了变化,之前的flink版本使用的依赖包是flink-connector-kafka_2.1x(后面的数字代表kafka环境的scala版本),从flink1.15版本开始引用的依赖包变为flink-connector-kafka,具体的maven配置信息如下:一、FlinkConsumer消费kafk
2023-12-21 08:25:51
2258
原创 第一个FLink程序之wordCount
以上两个例子分别是批处理文件单词统计和流式处理统计7777端口输入的单词统计,也是开始接触flink的第一个demo,flink还有很多强大的功能,后续会结合具体的业务场景讲解具体的实现代码,好了,今天就讲到这里,后续会继续持续更新。
2023-12-20 21:14:35
840
原创 数据同步利器之seatunnel篇
至此,seatunnel集群就已经部署完成了,看过seatunel官网介绍过跟datax的数据同步效率对比,大概提升了20%-40%,本人经过实测,速度确实更快了,而且配置比datax的json格式更为简单,seatunnel还提供了transform中间转换功能,当然了由于seatunel是后起之秀,还有不少需要完善改进的空间,但发展前景还是挺好的,希望有越来越多优秀的工具能够出现,由于篇幅有限,今天就聊到这里,如果有兴趣的话,你可以去试试这个工具。
2023-12-19 21:48:15
3974
原创 Flink1.17版本安装部署
flink同spark一样也是一种计算引擎,只不过在流式处理、实时计算方面比spark更为优秀,从flink发布至今已经更新到1.18版本,功能也在逐步的迭代完善中,最先开始接触的是flink cdc,由于项目中有实时展示数据的需求,当时在调研了几种cdc方案后,最后决定尝试flink cdc,就使用体验来说,flink对sql的集成优化真的很完善,对于不熟悉API接口开发的人员,也能快速上手,关于flink的介绍这里就不再赘述了,后续会用案例来体验它的功能强大之处。
2023-12-18 21:57:44
2201
原创 Spark3.3集群安装部署
spark从1.0版本发布至今,已经更新到3.5版本,目前生态发展非常成熟,无论是kafka、hive、还是数据湖格式(hudi、iceberg、delta)都对spark有做兼容适配,提供的API也是非常之多,由于实时场景的增加,spark计算引擎已经逐步替代mapreduce引擎,成为离线批处理的首选,而且spark提供了非常多的算数转子用于处理复杂计算,并且这些转化操作都是惰性求值,不用像mapreduce那样每一步操作需指定落在哪里,在流式处理方面,随意structed streaming的推出,s
2023-12-17 15:36:09
1341
原创 【Kafka3.0集群部署安装】
目前市面上消息中间件有很多,比如:ActiveMQ、rabbitMq、rocketMQ、pulsar、kafka等,每个组件都有差异,侧重点也不同,但在大数据开发过程中,最常接触的还是kafka,它的生态非常完善,flink和spark都对其有API支持,kafka的功能也十分强大,无论是批处理还是流处理情况都足以胜任,由于工作中,部署的消息中间件都是kafka,本编内容将围绕kafka展开。
2023-12-16 21:06:54
673
原创 zookeeper3.7.1集群部署安装
上篇内容关于hadoop集群的部署,只是用于测试,并没有做高可用的配置,在生产环境中,通常会启用高可用模式,除了会配置多个namenode节点外,还会用到zookeeper,来保证在namenode节点出现损坏的情况下,能够自动主备切换,保持集群环境的正常运行使用。
2023-12-15 22:05:34
1143
原创 Hive3.1.3版本安装部署
至此hive组件就已经安装完成了,相对于hadoop集群部署来说还是比较简单的,需要配置的地方也没那么多,但目前hive底层运行的执行引擎还是mapreduce,如果想要hive运行的更加高效,可以开启多个hiveserver2或者切换到hive on spark来加速任务的执行速度,由于篇幅有限,这里就不继续讨论了,后续再接着讨论其他组件的功能。
2023-12-14 17:17:57
3182
原创 hadoop 3.3.3集群安装部署
hadoop从发布至今,已经更新到第三个大版本,除了从1.0到2.0版本有着非常大的改进更新外,到3.0后的版本都是不断的改善优化。1.0版本yarn和mr引擎都是在一起的,对于资源的调优不透明也不太便利,2.0版本后yarn和mr引擎解耦,用户可用根据自身环境资源的情况自行配置参数调优,mr专门负责处理计算,yarn专门负责资源管理,另外还增强了高可用性以及hdfs响应速度等,之后的版本就没怎么关注,也没怎么听过关于hadoop的一些特别大的改进,如有疏漏的地方,大家可用及时补充讨论。
2023-12-13 15:48:12
1795
原创 【第一个SSM框架spring项目之员工信息增删改查】
上篇文章中提到,由于当前项目主要以python为技术栈,后端技术框架为django,项目系统上线初期系统用户少、访问量小,系统运行流畅,但随着业务需求的增加以及访问量的不断加大,系统问题也随之而增多,在综合生态、性能等方面考虑,选择当前比较热门的SSM后端技术,以下内容为编写的一个查询员工数据的后端以及简单的前端页面显示.提示:下面案例仅供参考,如有雷同,纯属巧合。
2023-12-12 15:21:03
1487
原创 第一个spring项目之hello word
总体感觉集成度比较高,编写也更高效了,比本人多年之前的ssh框架要方便的多,真的感叹技术更新的速度之快,学海无涯,继续加油!
2023-12-11 17:58:50
373
原创 【你发任你发,我用java8,IDEA2023.3创建spring项目如何选择jdk8版本】
目前大数据环境都是基于jdk8版本构建的,对于高版本的jdk版本存在兼容问题。
2023-12-11 14:01:36
1589
原创 【DBeaver23.3.0 mac版本升级后,报错:Error downloading driver libraries】
DBeaver提示版本升级,本着体验新版本功能的项目,点击了check for updates.
2023-12-11 11:40:49
1331
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人