- 博客(23)
- 资源 (22)
- 收藏
- 关注

原创 《Flink实用教程_Flink 1.13.2》简介
《Flink实用教程》.pdf,基于Flink 1.13.2,所有示例和案例均提供Java和Scala两个版本的实现。预览版下载:这里下载
2021-11-10 17:23:48
1145
原创 使用Flink处理Kafka中的数据_题库子任务_Java语言实现
职业院校技能大赛,使用Flink处理Kafka中的数据_题库子任务_Java语言实现
2023-11-19 12:47:33
1088
原创 2023年浙江省职业院校技能大赛大数据技术与应用专业样题
2023浙江省赛样题解析-数据采集:离线数据采集 2023浙江省赛样题解析-数据采集:实时数据采集_子任务1 2023浙江省赛样题解析-数据采集:实时数据采集_子任务2 2023浙江省赛样题解析-实时数据处理:实时数据清洗 2023浙江省赛样题解析-实时数据处理:实时指标计算_子任务1 2023浙江省赛样题解析-实时数据处理:实时指标计算_子任务2 2023浙江省赛样题解析-离线数据处理
2023-03-25 16:30:41
990
原创 农业大数据项目
搭建一个基于Hadoop大数据分析框架的农业大数据系统,该系统框架以我国农业的水果产业为例,完成我国水果产业中各个指标的分析。涉及到的技术:Spark, Spark SQL, Spark UDF, Jieba分词, Hive, ETL, ECharts等。可视化图表:饼状图,柱状图,地图,词云图,面积图,玫瑰饼图等。
2023-03-23 18:37:23
508
原创 2022年职业院校技能大赛-大数据赛题解析
2022年职业院校技能大赛-大数据赛题解析,最新上线2022年7月20日新发布任务书1和任务书7解析。
2022-10-20 08:06:31
5083
4
转载 2011-2022年高职大数据竞赛-赛题任务剖析
本系列共分五篇,内容分别为:第一部分 赛题内容 第二部分 任务剖析 第三部分 赛题模拟实现-离线数据抽取 第四部分 赛题模拟实现-离线数据统计 第五部分 赛题模拟实现-数据采集与实时计算 第六部分 赛题模拟实现-数据可视化(一)任务一:大数据平台环境搭建具体内容按照大数据分析平台需求,需要完成Hadoop完全分布式、Spark安装配置、Flink安装配置、Hive安装配置、Kafka安装配置、Flume安装配置。分析Hadoop完全分布式:请参考Hadoop-3.2.1环境搭
2022-03-21 10:10:32
3069
转载 2011-2022年高职大数据竞赛-赛题内容
本系列共分五篇,内容分别为:第一部分 赛题内容 第二部分 任务剖析 第三部分 赛题模拟实现-离线数据抽取 第四部分 赛题模拟实现-离线数据统计 第五部分 赛题模拟实现-数据采集与实时计算 第六部分 赛题模拟实现-数据可视化第一部分 竞赛内容赛项以大数据技术与应用为核心内容和工作基础,重点考查参赛选手基于Spark、Flink平台环境下,充分利用Spark Core、Spark SQL、Flume、Kafka、Flink等技术的特点,综合软件开发相关技术,解决实际问题的能力,具体包括:
2022-03-21 10:07:27
2502
原创 《PySpark实用教程_v3.1.2》简介
《PySpark实用教程》(基于Spark3.1.2和Python 3.7)预览版下载:这里下载大数据分析一直是个热门话题,需要大数据分析的场景也越来越多。Apache Spark是一个用于快速、通用、大规模数据处理的开源项目。现在,Apache Spark已经成为一个统一的大数据处理平台,拥有一个快速的统一分析引擎,可用于大数据的批处理、实时流处理、机器学习和图计算。2009年,Spark诞生于伯克利大学AMP实验室,最初属于伯克利大学的研究性项目。它于2010年被正式开源,于2013年被转交给A
2022-02-28 12:38:57
1967
转载 电商大数据分析案例(Hadoop+Hive+Spark+Azkaban+Spring MVC+ECharts)
项目描述某著名电商平台双十一美妆销售数据分析。由于是真实的商业数据,所以做了脱敏处理,数据集中对店名的引用被处理为产品的品牌名以保护店家隐私。。通过对该平台双十一美妆销售数据的品牌、销量、热度等特征的分析(平台视角和用户视角),尝试探索以下问题:双十一期间,最受消费者青睐的产品或品牌是哪些? 双十一期间,美妆行业各品类的销售情况? 双十一期间,消费高峰何时出现? 双十一期间,客户的评论数对销量的影响? ......项目架构电商大数据项目架构图项目流程项目流程说明如下:1.
2022-01-12 22:22:45
4972
1
转载 某物流公司运输车辆超速实时检测案例(数据源 + Kafka + Flink + Spring MVC + WebSocket + ECharts)
综合运用Flink实时数据处理技术,对Kafka收集到的运输车辆实时监控数据进行分析,运用模式检测及时发现超速车辆,并在服务端通过仪表盘实时告警。
2021-11-24 10:17:38
866
转载 案例_Spark SQL实现数据ETL到Hive ODS
演示如何通过Spark SQL实现ETL任务,将数据分别从文件或MySQL中抽取到Hive数据仓库的ODS层叠 (数据贴源层)中。
2021-11-24 10:14:49
1401
原创 Hive shell 中夹杂大量的日志信息问题的解决方法
在hive-3.1.x版本中,使用hive shell时,会发现在查询命令中夹杂大量的日志信息,严重干扰查询结果显示,特别是强迫症患者,不能忍受。通过修改conf下的日志文件,会发现不起任何作用。那么,怎么解决这个问题呢?搜遍全网,终于在这篇博文里找到了解决方法,参考解决方法,亲测有效。...
2021-11-15 10:38:31
3953
5
原创 《Spark实用教程_v3.1.2》简介
《Spark实用教程》(基于3.1.2)预览版下载:这里下载大数据分析一直是个热门话题,需要大数据分析的场景也越来越多。Apache Spark 是一个用于快速、通用、大规模数据处理的开源项目。现在,Apache Spark 已经成为一个统一的大数据处理平台,拥有一个快速的统一分析引擎,可用于大数据的批处理、实时流处理、机器学习和图计算。2009 年,Spark 诞生于伯克利大学AMP 实验室,最初属于伯克利大学的研究性项目。它于2010 年被正式开源,于2013 年被转交给Apache 软件基金会
2021-11-10 17:26:44
1304
原创 准备Flink开发环境-使用IntelliJ IDEA+Maven开发Flink项目
摘自拙作《Flink实用教程_1.13.2》一书。对于熟悉Maven操作的读者来说,可以象上一节讲的那样,先在命令行用Maven命令快速生成Flink基本程序框架,然后导入到IDE中进一步开发。如果读者更熟悉IDE(例如,IntelliJ IDEA)的话,那么可以直接在IntelliJ IDEA中开发Maven程序。通过结合使用IntelliJ IDEA集成开发工具和Maven项目构建工具,我们可以方便快速地开发Flink项目。一、在IntelliJ IDEA中创建Flink项目第一步:启动.
2021-10-29 09:50:39
1709
原创 Flink架构和执行原理
摘自拙作《Flink实用教程_1.13.2》一书。在大数据领域,有许多流计算框架,但是通常很难兼顾延迟性和吞吐量。Apache Storm提供低延迟,但目前不提供高吞吐量,也不支持在发生故障时正确处理状态。Apache Spark Streaming的微批处理方法实现了高吞吐量的容错性,但是难以实现真正的低延时和实时处理,并且表达能力方面也不是特别丰富。而Apache Flink兼顾了低延迟和高吞吐量,是企业部署流计算时的首选。1、Flink架构Flink 是可以运行在多种不同的环境中的,例.
2021-10-29 09:44:11
2091
原创 深入理解Flink中的TumblingWindow
在了解TumblingWindow之前,首先让我们对当涉及到流处理或流计算时的“窗口”有一个基本的了解。在数据流中,有一个持续生成数据的源,这使得计算最终值变得不可行。“窗口”定义了无界流上的有限元素集,我们可以在其上应用计算。这个集合可以基于时间、元素计数、计数和时间的组合,或者一些自定义逻辑来为窗口分配元素。例如:每分钟收到的订单数量(固定时间) 完成最后100个订单的平均时间(固定元素)流框架厂商实现了一个多种类型的“窗口”定义。Flink有三种类型翻滚窗口(又称为”滚动窗口“) 滑
2021-10-29 09:37:56
1123
Spark实用教程_v3.1.2_预览版.pdf
2021-11-09
Flink实用教程_预览版_v1.pdf
2021-09-24
winutils-master.zip
2021-04-07
mariadb数据库驱动程序
2018-09-29
hadoop-eclipse插件各版本合集
2018-09-29
dbcp数据库连接池
2009-12-21
jtds:第三方mssqlserver的jdbc驱动程序
2009-12-21
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人