自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 使用面向对象将Kafka数据导入hbase

/ 构造函数,传入目标表名、处理记录的handler、主机名、端口、hdfs路径。// 创建一个HbaseWrite对象,用于写入数据到Hbase数据库中。// 创建Properties对象,用于配置KafkaConsumer。// 调用另一个构造函数,传入默认的主机名、端口、hdfs路径。// 创建一个HbaseWorker对象,用于处理数据。// 抽象方法,用于填充数据,抛出IOException异常。// 构造函数,传入目标表名、处理记录的handler。// 创建KafkaConsumer对象。

2024-08-05 16:27:03 632

原创 使用flume将消息导入Kafka

版本使用:flume190,kafka200,hadoop260在flume文件目录创建ngcf目录,创建flume配置文件text.conf//:指定source的类型为spooldir,即监控指定目录中新出现的文件,并将这些文件的内容作为事件(events)来处理。//source监控的目录//反序列化器为LINE,即按行读取文件内容//每行的最大长度为320000个字符//指定只处理文件名匹配该正则表达式的文件//配置了一个拦截器//拦截器配置。

2024-07-24 16:17:46 1023 1

原创 Kafka部件Producer和Consumer 一些原理和运行

/创建ProducerRecord对象,指定topic和消息内容。//创建一个Properties对象,用于存储Kafka生产者的配置信息。//设置ack的值为1,表示只要有一个副本确认了消息就认为消息发送成功。//循环100000次,发送100000条消息。//创建KafkaProducer对象。//设置Kafka集群的地址。//设置value的序列化类。//可以替换为外部消息推送。//设置key的序列化类。//设置重试次数为3次。//循环100次,提交100个任务。//输出“生成数据结束”

2024-07-23 20:06:26 554 1

原创 scala转json方法提取和使用 副练习例子

数据://转换成dataframe,分为两列,一列叫id,一列叫json------------get_json_object方法,直接从json列获取device_id数据------------from_json方法,定义json的表格,将列中的JSON字符串解析为DataFram,通常用在json表格里面套了一个json的情况先建表//"$id"和"$device"是列的选择器,表示选DataFrame中的id和device列。将device。

2024-07-23 17:14:28 1095

原创 Scala基本算子及数据处理例子

import org.apache.spark.sql.SparkSessionobject aaa { def main(args: Array[String]): Unit = { val spark=SparkSession.builder().appName("Student") .master("local[*]").getOrCreate() val Student = DataFrameToMysql.getDataFrameFromMysql(sp

2024-07-23 16:20:07 222

原创 2.Scala读取文件和数据处理,Rdd,DataFrame,DataSet理解

Rdd : 算子,或者我们可以将其理解为一个数组(虽然它不是数组),想象它就像一个长方形的容器,里面就单纯的存储着数据 DataFrame : 将Rdd比作长方形的容器,DataFrame就是多个长方形的容器拼接组成,也就是将rdd加上表格化就是dataframeDataSet :,DataSet有很多的类型,相当于是由rdd经过不同类型组合起来的,其中一种类型就是DataFrame, 及Dataset[Row]=DataFrame三者转换:scala读取Hadoop数据库 scala读取本

2024-07-23 16:14:33 861

原创 spark连接HIVE,MYSQL,Parquet,及从它们导入和引出数据

/JDBCUtile.dataFrameToParquet(frame,"out/fullog",op=1) //将dataframe数据导入Parquet。//JDBCUtile.dataFrameToMysql(frame,JDBCUtile.frame) //将dataframe数据导入MySQL。//JDBCUtile.dataFrameHive(frame,"sss",1) //将dataframe数据导入Hive。//从MySQL中取数据到spark dataframe。

2024-07-23 12:23:08 434 1

原创 搭建高可用集群

创建三台虚拟机,均安装jdk,关闭防火墙,改机器名为hd01,hd02和hd03,分别安装vim编辑器,wget下载器,改国内源,做无密登录,使三台机可以互联。

2024-01-18 20:08:59 701 1

原创 对于hadoop,hive,mapreduce的理解

MapperReduce包含Mapper和Reduce其中Mapper为输入数据分组:MapReduce框架将输入数据按照Key进行分组,相同Key的数据会被分到同一个Reduce任务进行处理。这样可以将具有相同特征或属性的数据进行聚合,便于后续的数据处理和分析。数据排序:在MapReduce中,输入数据会首先根据Key进行排序,以便更好地进行后续的处理。排序可以确保相同Key的数据紧邻存放,从而便于Reduce任务对数据进行合并和计算。

2024-01-18 20:02:32 906 2

原创 myspt springbot的应用

1.写实体类--->放在主入口类的下面一层2.写mapper接口--> mapper下3.写服务类--->services下 1.类头上@Service 2.类属性上mapper接口上@Resource 4.写controller类--->controller下 1.类头上@RestController与前端交2.类的属性(服务类的某类)@Resource1.类头上@RestController与前端交互。

2023-09-10 22:37:17 57 1

原创 MyBatis操作数据库

自动映射数据库表字段到Java对象属性。,通过XML配置文件和注解。高,可直接编写SQL语句。,提供丰富的插件接口。

2023-09-10 22:30:00 64 1

原创 使用JDBC操作数据库

前提:我在虚拟机中有个数据库myexp,有表winexp,有数据name,orderdate,cost使用Java中maven工程webapp文件在maven文件包可中加入该mirror下载镜像在将几处设置改为符合该Java版本java8写代码时要加入该代码(192.168.52.139为虚拟机IP地址myexp为数据库(数据库下面有表)名字)

2023-09-06 09:36:11 113 1

原创 mysql一些基本命令和解释

- 删除数据库 如果 发现-- 创建数据库use myexp;-- 使用数据库stuid int primary key, -- 约束输入不可以重复stusex int not null, -- 约束不可以为空。

2023-08-10 19:48:32 58 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除