大数据离线、实时处理笔记资料_open_test01的博客-优快云博客

大数据离线、实时处理笔记资料

文章平均质量分 80

题目参考

文章数：12 文章阅读量：18382 文章收藏量：161

作者: open_test01

记录个人学习笔记

展开

专栏收录文章

离线数据处理任务一：数据抽取

离线数据处理任务一：数据抽取

原创 2023-03-31 19:48:32 · 5336 阅读 · 1 评论
离线数据处理任务二：数据清洗

离线数据处理任务二：数据清洗

原创 2023-04-06 21:54:11 · 4180 阅读 · 1 评论
离线数据处理任务三：指标计算

离线数据处理任务三：指标计算

原创 2023-04-10 21:44:10 · 2855 阅读 · 2 评论
工业—使用Flink处理Kafka中的数据_EnvironmentData2

使用Flink消费Kafka中EnvironmentData主题的数据,监控各环境检测设备数据，当温度（Temperature字段）持续3分钟高于38度时记录为预警数据。将结果存入HBase中的gyflinkresult:EnvTemperatureMonitor，key值为“env_temperature_monitor”，rowkey“设备id-系统时间”（如：123-2023-01-01 12:06:06.001）。注：时间语义使用Processing Time。

原创 2024-12-05 14:40:11 · 606 阅读 · 0 评论
工业—使用Flink处理Kafka中的数据_EnvironmentData1

使用Flink消费Kafka中EnvironmentData主题的数据,监控各环境检测设备数据，当温度（Temperature字段）持续3分钟高于38度时记录为预警数据。将结果存入Redis中，key值为“env_temperature_monitor”，value值为“设备id-预警信息生成时间，预警信息”（预警信息生成时间格式：yyyy-MM-dd HH:mm:ss）。使用redis cli以HGETALL key方式获取env_temperature_monitor 值。

原创 2024-12-05 14:25:19 · 456 阅读 · 0 评论
工业—使用Flink处理Kafka中的数据_ChangeRecord4

使用Flink消费Kafka中ChangeRecord主题的数据，实时统计每个设备从其他状态转变为“运行” 状态的总次数，将结果存入MySQL数据库shtd_industrychange_state_other_to_run_agg表中（表结构如下）。请将任务启动命令复制粘贴至客户端桌面【Release\任务D提交结果.docx】中对应的任务序号下，启动1分钟后根据change_machine_id降序查询change_state_other_to_run_agg表。注：时间语义使用Processi

原创 2024-12-05 12:02:01 · 1055 阅读 · 0 评论
工业—使用Flink处理Kafka中的数据_ChangeRecord3

使用Flink消费Kafka中ChangeRecord主题的数据，统计每3分钟各设备状态为“预警”且未处理的数据总数，将结果存入MySQL数据库shtd_industry的threemin_warning_state_agg表中（追加写入，表结构如下）。请将任务启动命令复制粘贴至客户端桌面【Release\任务D提交结果.docx】中对应的任务序号下，启动且数据进入后按照设备id升序排序查询threemin_warning_state_agg。

原创 2024-12-05 11:51:39 · 796 阅读 · 0 评论
工业—使用Flink处理Kafka中的数据_ChangeRecord2

使用Flink消费Kafka中ChangeRecord主题的数据，每隔1分钟输出最近3分钟的预警次数最多的设备，将结果存入Redis中，key值为“warning_last3min_everymin_out”，value值为“窗口结束时间，设备id”（窗口结束时间格式：yyyy-MM-dd HH:mm:ss）。使用redis cli以HGETALL key方式获取 warning_last3min_everymin_out值。注：时间语义使用Processing Time。

原创 2024-12-04 17:28:48 · 493 阅读 · 0 评论
工业—使用Flink处理Kafka中的数据_ChangeRecord1

使用Flink消费Kafka中ChangeRecord主题的数据，当某设备30秒状态连续为“预警”，输出预警信息。当前预警信息输出后，最近30秒不再重复预警（即如果连续1分钟状态都为“预警”只输出两次预警信息），将结果存入Redis中，key值为“warning30sMachine”，value值为“设备id，预警信息”。使用 redis cli以HGETALL key方式获取warning30sMachine值。注：时间使用change_start_time字段，忽略数据中的change_end_t

原创 2024-12-04 16:06:01 · 445 阅读 · 0 评论
工业—使用Flink处理Kafka中的数据_ProduceRecord2

使用Flink消费Kafka中ProduceRecord主题的数据，统计在已经检验的产品中，各设备每5分钟生产产品总数，将结果存入HBase中的gyflinkresult:Produce5minAgg表，rowkey“设备id-系统时间” （如：123-2023-01-01 12:06:06.001）注：ProduceRecord主题，每生产一个产品产生一条数据； change_handle_state字段为1代表已经检验，0代表为检验；时间语义使用Processing Time。

原创 2024-12-04 15:44:53 · 885 阅读 · 0 评论
工业—使用Flink处理Kafka中的数据_ProduceRecord1

使用Flink消费Kafka中ProduceRecord主题的数据，统计在已经检验的产品中，各设备每5分钟生产产品总数，将结果存入Redis中，key值为“totalproduce”，value值为“设备id，最近五分钟生产总数”。使用redis cli以HGETALL key方式获取totalproduce值。注：ProduceRecord主题，生产一个产品产生一条数据； change_handle_state字段为1代表已经检验，0代表未检验；时间语义使用Processing Time。

原创 2024-12-04 15:33:24 · 743 阅读 · 0 评论
工业-实时数据采集

在主节点使用Flume采集/data_log目录下实时日志文件中的数据，将数据存入到Kafka的Topic 中（Topic名称分别为ChangeRecord、ProduceRecord和EnvironmentData，分区数为4），Flume 采集ChangeRecord。

原创 2024-12-04 15:08:55 · 536 阅读 · 0 评论

大数据离线、实时处理笔记资料

作者: open_test01

离线数据处理 任务一：数据抽取

离线数据处理 任务二：数据清洗

离线数据处理 任务三：指标计算

工业—使用Flink处理Kafka中的数据_EnvironmentData2

工业—使用Flink处理Kafka中的数据_EnvironmentData1

工业—使用Flink处理Kafka中的数据_ChangeRecord4

工业—使用Flink处理Kafka中的数据_ChangeRecord3

工业—使用Flink处理Kafka中的数据_ChangeRecord2

工业—使用Flink处理Kafka中的数据_ChangeRecord1

工业—使用Flink处理Kafka中的数据_ProduceRecord2

工业—使用Flink处理Kafka中的数据_ProduceRecord1

工业-实时数据采集

离线数据处理任务一：数据抽取

离线数据处理任务二：数据清洗

离线数据处理任务三：指标计算