Spark 对hadoopnamenode-log文件进行数据清洗并存入mysql数据库

难以言喻wyy

已于 2023-07-10 22:03:27 修改

阅读量860

点赞数 1

文章标签： spark 大数据 hadoop

于 2023-04-12 23:06:08 首次发布

本文链接：https://blog.youkuaiyun.com/weixin_53898747/article/details/130118719

版权

本文介绍了如何在Linux环境下使用SparkSQL清洗HadoopNameNode的日志，通过过滤和截取含有特定字段（如INFO、WARN、ERROR）的行，然后将清洗后的数据转换为DataFrame并展示。最后，通过jdbcUtils将清洗后的数据导入到MySQL数据库中。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一.查找需要清洗的文件

1.1查看hadoopnamenode-log文件位置

1.2 开启Hadoop集群和Hive元数据、Hive远程连接

具体如何开启可以看我之前的文章：(10条消息) SparkSQL-liunx系统Spark连接Hive_难以言喻wyy的博客-优快云博客

1.3 将这个文件传入到hdfs中：

hdfs dfs -put hadoop-root-namenode-gree2.log /tmp/hadoopNamenodeLogs/hadooplogs/hadoop-root-namenode-gree2.log

二.日志分析

将里面部分字段拿出来分析：

2023-02-10 16:55:33,123 INFO org.apache.hadoop.hdfs.server.namenode.NameNode: registered UNIX signal handlers fo

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

难以言喻wyy

关注关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

binlog数据清洗

老骆驼的博客

08-02

185

binlog数据清洗

头歌网约车大数据综合项目——基于Spark的数据清洗

qq_70619741的博客

12-27

2224

头歌网约车大数据综合项目——基于Spark的数据清洗

参与评论您还未登录，请先登录后发表或查看评论

hadoop:读取清洗好的数据文件到MySQL中存储

fengjinghong的博客

11-09

425

原始数据: c1 225.0 c2 228.0 c3 228.0 c4 227.0 自定义：Co81Baen package com.fjh.course.course8.co1; import org.apache.hadoop.io.WritableComparable; import org.apache.hadoop.mapreduce.lib.db.DBWritable; import java.io.DataInput; import java.io.DataOutput; impor

hadoop数据清洗

最新发布

2401_85414079的博客

04-02

222

reduceTask为0,表示没有reduce阶段，那么最终输出的文件个数与mapperTask的数量一致。需要在Map阶段对输入的数据根据规则进行过滤清洗，并不需要进行汇总。（2）期望输出数据：每行字段长度都大于11。编写WebLogDriver类。

Spark学习——DataFrame清洗HDFS日志并存入Hive中

雷神乐乐的博客

04-11

1077

DataFrame清洗HDFS日志并存入Hive中

一零四三、Spark数据清洗 模块C：数据清洗与挖掘分析(2)

12-25

675

spark数据处理

补充：数据清洗（简单案例）

Slothwolf的博客

10-02

114

利用MapReduce进行数据清洗的简单案例

SparkSQL读取本地文件写入MySQL

NBA首席形象大使坤坤

03-18

1464

unit1：LoggerLevel 思路在main代码中，读取的文件要注意格式。 package com.units import org.apache.log4j.{Level, Logger} trait LoggerLevel { Logger.getLogger("org").setLevel(Level.ERROR) } unit2：getLocalSparkSession package com.units import org.apache.spark.sql.SparkSessi

spark rdd转dataframe 写入mysql的实例讲解

09-09

通过将RDD转换为DataFrame，我们可以利用其丰富的功能进行复杂的数据处理，并通过各种数据源接口（如JDBC）将结果写入外部系统，如MySQL。在实际应用中，这尤其适用于需要将批处理结果集成到现有数据库系统的场景。

spark 通过 scala 读取数据并且存入 mysql

景山编程-顺道编程

09-27

2679

import java.sql.{Connection,Driver,DriverManager,ResultSet,PreparedStatement} import org.apache.spark.{SparkConf, SparkContext} //把每个jsp的访问量，直接保存到Oracle数据中 // spark-submit --master local --class Sav...

mapreduce清洗mysql_【hadoop】Hadoop,MapReduce操作Mysql(比較早的操作方法，可以看看)...

weixin_29011239的博客

02-17

173

hadoop技術推出一首曾遭到關系數據庫研究者的挑釁和批評，認為MapReduce不具有關系數據庫中的結構化數據存儲和處理能力。為此，hadoop社區和研究人員做了多的努力，在hadoop0.19版支持MapReduce訪問關系數據庫，如：mysql，MySQL、PostgreSQL、Oracle 等幾個數據庫系統。1. 從Mysql讀出數據Hadoop訪問關系數據庫主要通過一下接口實現的：DBI...

学习Spark的数据清洗与预处理

AI天才研究院

01-25

1790

1.背景介绍 数据清洗和预处理是数据科学和机器学习的基础，它们有助于提高模型的准确性和性能。在大数据领域，Apache Spark是一个流行的分布式计算框架，它可以处理大量数据并提供高性能的数据处理能力。在本文中，我们将探讨如何使用Spark进行数据清洗和预处理。 1. 背景介绍 数据清洗和预处理是指对原始数据进行清理、转换和准备，以便于后续的数据分析和机器学习任务。数据清洗包括删除冗余数据...

Hadoop案例：数据清洗（ETL）

小M呀~之大数据系列

12-08

4726

目录 1.概述 2.需求 3.代码实现 3.1编写WebLogMapper类 3.2编写WebLogDriver类 1.概述 “ETL，是英文 Extract-Transform-Load 的缩写，用来描述将数据从来源端经过抽取（Extract）、转换（Transform）、加载（Load）至目的端的过程。ETL 一词较常用在数据仓库，但其对象并不限于数据仓库在运行核心业务 MapReduce 程序之前，往往要先对数据进行清洗，清理掉不符合用户要求的数据。...

十五、Hadoop中数据清洗（ETL）的简单应用

象在舞的技术专栏

08-25

2482

数据清洗，是每个业务中不可或缺的部分，在运行核心业务的MapReduce程序之前，往后都会对数据进行清洗。数据清洗的过程往往只需要运行Mapper程序，而不需要运行Reducer程序，本文主要介绍一下数据清洗的简单应用。关注专栏《from zero to hero（Hadoop篇）》查看相关系列的文章~ 目录一、开始的话二、需求与数据三、定义Bean类四、编写Mapper类五、编写Driver驱动类六、测试一、开始的话因为是简单应用，本...

【大数据之Hadoop】十七、MapReduce之数据清洗ETL

阿宁的博客

04-21

2355

ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程，目的是将分散、零乱、标准不统一的数据整合到一起，为决策提供分析依据。ETL的设计分三部分：数据抽取、数据的清洗转换、数据的加载。

【数仓建模过程】Spark数据清洗篇

tianty1121的博客

08-29

965

记住，实际的实现可能需要根据你的具体需求和数据特性进行调整。同时，定期监控和优化你的Spark作业以确保其效率和可靠性也是很重要的。对数据进行必要的清洗和转换操作，以符合DWD层的要求。通常，DWD层的数据会以Hive表的形式存储。根据需要使用Spark的优化技术，如缓存频繁使用的数据、调整分区等。基于数据质量检查的结果，我们可以更有针对性地进行数据清洗和转换。在进行数据清洗之前，我们应该先检查数据质量，以了解数据的现状。记录数据的血缘关系和元数据，这对于数据治理和追踪非常重要。

一零四七、Spark数据清洗 模块C：数据清洗与挖掘分析(3)

01-11

494

餐饮外卖平台的核心价值体现在配送，而配送的价值则依赖于商家与客户的双向选择。外卖平台通常会通过内容激活消费者和商家两个群体的活跃度。消费者会参考平台展示的内容选择商家，商家也会以消费者评价与平台统计数据为依据调整策略，由此再吸引更多的用户下单、评论、形成正向循环。保证配送的时效与品质是从优化用户体验的角度，吸引更多的用户参与，进而带动商家不断入驻。由此，商家、消费者、骑手在平台上形成越来越多的真实可靠的数据，帮助消费者更好的做出消费决策，同时促进商家提高服务质量。

Hadoop实现数据清洗ETL

waectr的博客

07-26

8331

准备 LKh7zAJ4nwo TheReceptionist 653 Entertainment 424 13021 4.34 1305 744 DjdA-5oKYFQ NxTDlnOuybo c-8VuICzXtU DH56yrIO5nI W1Uo5DQTtzc E-3zXq_r4w0 1TCeoRPg5dE yAr26YhuYNY 2ZgXx72XmoE -7ClGo-YgZ0 vmdPOOd...

基于Hadoop的数据清洗

ning的博客

12-19

1521

基于Hadoop的数据清洗是一个涉及数据预处理、MapReduce程序编写、配置和运行Job的过程。通过这个过程，我们可以有效地去除或修正数据集中的错误和不一致性，为后续的数据分析和处理提供干净、准确的数据。版权声明：本博客内容为原创，转载请保留原文链接及作者信息。参考文章Hadoop清洗数据_mob649e815b8ae8的技术博客_51CTO博客Hadoop3.0大数据处理学习4（案例：数据清洗、数据指标统计、任务脚本封装、Sqoop导出Mysql）_hadoop可以做数据清洗吗-优快云博客。

openmetadata支不支持mysql数据库的血缘关系自动生成

03-01

-- 日志存入mysql.general_log表 ``` 2. **配置OpenMetadata日志摄取** ```yaml processor: type: lineage config: queryLogDuration: 24 # 分析最近24小时日志 filter: "db = 'sales_db'" ``` 3. **血缘...