天才的白鸟-优快云博客

原创 ResourceManager 与 JobManager与 TaskManager 三者的协作关系

Flink架构中ResourceManager，JobManager，TaskManager之间的协作关系

2024-10-23 11:23:32 956

原创 zookeeper的作用--有无zookeeper的区别

没有ZooKeeper需要手动处理配置管理、服务发现、分布式锁、集群管理等问题。实现复杂，容易出错，难以保证一致性。维护成本高，扩展性差。有ZooKeeper提供了现成的解决方案，简化了分布式系统的开发和维护。保证了一致性和可靠性，提高了系统的稳定性和性能。易于扩展和维护，降低了开发和运维的成本。通过这些具体的例子，可以看到ZooKeeper在分布式系统中起到了至关重要的作用，使得系统更加健壮、可靠和易于管理。

2024-10-23 10:07:29 1311

原创序列化与反序列化

网络传输：将数据转换为字节流以便在网络上传输。磁盘存储：将数据序列化后写入磁盘，以便持久化存储。内存缓存：在内存中缓存序列化后的数据，以提高处理效率。因此，虽然MapReduce中的大部分数据最终会被写入磁盘，但在处理过程中，数据也会在内存中以序列化后的字节流形式存在，以便于高效的管理和传输。

2024-10-23 09:40:59 1003

原创 Flink本地安装

如果失败，尝试修改flink1.17.2/conf/flink-conf.yaml。解压完成后进入flink-1.17目录，执行以下命令启动flink服务。之后尝试打开flink的webui。改成自己主机的ip地址。

2024-10-21 11:33:48 477

原创通过dbeaver连接本地pg库

保存文件为 C:\PostgreSQL\15.4.1\password.txt，确保没有扩展名 .txt，并且文件编码为 ANSI 或 UTF-8 无 BOM。创建一个包含密码的文本文件。例如，创建一个名为 password.txt 的文件，并在其中写入密码。使用 initdb 命令重新初始化数据库集群，并指定 postgres 用户和密码文件。如果一切正常，会看到一系列的信息输出，表明数据库集群已经被成功初始化。：指定包含密码的文件路径。输入密码（例如123）。：指定数据目录的位置。用户连接到数据库了。

2024-09-26 11:31:04 2078

原创 spark shell

2.1.1读取linux文件系统的文件创建RDD。2.1.2读取hdfs文件系统上的文件创建RDD。--需要保证每一个worker中都有该文件。--过滤数据,保留每行中含有hello的数据。2.2使用Parallelize创建RDD。2.3从其他的RDD中创建新的RDD。--对RDD中的数据进行过滤操作。--统计RDD中的数据记录表。2.1 读取文件创建RDD。--读取RDD的第一条数据。4.实现wordcount。1.进行shell命令行。3.对RDD进行操作。--读取中的N条数据。

2024-07-19 16:04:56 650

原创 Spark安装

启动命令在/opt/softs/spark3.1.2/sbin 目录下的。配置worker里的hostname。三台都配置spark环境变量。导入压缩包，解压改名。将修改传给其他虚拟机。

2024-07-18 18:53:46 277

原创 hbase命令行操作

1.进入命令行。

2024-07-16 16:06:23 2499

原创 habase集群安装

进入 /opt/softs/hbase2.4.11/conf 目录。改名 mv hbase-2.4.11/ hbase2.4.11。将其他虚拟机也在/etc/profile中配置一下环境变量。修改 hbase-env.sh 在里面修改以下内容。修改hbase-site.xml。解压到/opt/softs目录。启动hdfs和zookeeper。命令start-hbase.sh。修改/etc/profile。访问hbase的web页面。传到另外两台虚拟机上。

2024-07-15 19:04:23 436

原创 Hadoop的HA模式搭建

准备三台虚拟机1.修改虚拟机的IP地址和hostname2.配置集群中的ip映射（/etc/hosts）3.关闭虚拟机的防火墙4.集群间实现免密登录每台虚拟机都执行类似操作。

2024-07-11 18:52:23 1693

原创 zookeeper的shell操作

- 在已有的持久节点/node1中创建持久非顺序子节点/node1/child1 该节点存储的数据"def"-- 在已有的持久节点/node1中创建临时非顺序子节点/node1/child2 该节点存储的数据"def"-- 创建持久顺序节点节点名称为 /node2_ 该节点中存储的数据为"456"-- 创建临时非顺序节点节点名称为/node3——tmp 该节点中存储的数据为"789"-- 创建临时顺序节点节点名称为/node3——tmp 该节点中存储的数据为"789"

2024-07-10 16:16:21 1188

原创图书馆数据仓库

主机名数据库。图书类别表 dim_books_type 5条。用户表 t_user_info 38条数据。借书表 t_borrow_info,hdfs上的数据库位置。包含图书表 t_book_info,-- sqoop导出数据到mysql。导入dim_books_type。端口号 mysql中的数据库名。在hive中建立映射的数据库。

2024-07-05 21:10:32 1140 2

原创 mysql修改字符集为UTF-8

在mysql命令行下查询mysql状态##退出mysqlmysql>exit;##关闭mysql##添加如下内容[client][mysqld]collation-server=utf8_general_ci 完成。

2024-07-05 15:24:38 1492

原创电商数据仓库

1.数据仓库的数据来源为业务数据库（mysql）2.通过sqoop将mysql中的业务数据导入到大数据平台（hive）3.通过hive进行数据计算和数据分析形成数据报表4.再通过sqoop将数据报表导出到mysql5.使用FineReport制作数据报表。

2024-07-04 20:37:13 873 1

原创 hive内置函数

-newtype cast(attr as newtype): 将字符串attr转换成newtype类型。//字符串的起始索引位置为1，从索引位置为5的字符开始截取到字符串的结尾。如果截取的起始索引位置为负数，表示从字符串的末尾位置开始向前找到索引位置。--根据指定的分隔符拼接字符串: concat_ws()--返回浮点数的指定小数位置，进行四舍五入后的值。--ltrim():去除字符串左侧的空格。--rtrim():去除字符串右侧的空格。----获取字符串拆分后的元素。7.将大写字母转换成小写。

2024-07-03 10:35:52 1981

原创 hive小练习拓展

- 3. 查询每门课程的平均成绩，结果按平均成绩升序排序，平均成绩相同时，按课程号降序排列。--1.每门课程:按课程分组查询每门课程id的及格人数。--1.查询两门以上课程不及格的学生id和平均成绩。-- 6. 查询平均成绩大于85的所有学生的学号、姓名和平均成绩。--2.与学生表连接查询学生的学号姓名。--1.查询课程分数小于60分的学生id。--2.与学生表连接查询学生的学号姓名。--1.查询平均成绩大于85分的学生学号。--2.与学生表链接，查询学生姓名。--2.与学生表连接。

2024-07-03 08:39:06 1031

原创 hive表小练习

字段为course_name 类型为string,注释为课程名。字段为course_id 类型为string,注释为课程id。字段为course_id 类型为string,注释为课程id。字段为stu_name 类型为string,注释为学生姓名。字段为stu_id 类型为string,注释为学生id。字段为tea_id 类型为string,注释为教师id。字段为tea_id 类型为string,注释为教师id。字段为stu_id 类型为string,注释为学生id。创建表名为course_info,

2024-07-02 12:15:44 456

原创 hive的表操作

hive在删除表的时候，内部表的元数据和数据会被一起删除，而外部表只删除元数据，不删除数据。先启动hdfs ，mysql ， hiveservice2，beeline。对于之前创建的带注释的表emp2不起效果，一=应该重新创建一个注释的表。--将以上内容写入sql文件中，再用source 执行文件。创建一个指定名字的表，如果名字相同抛出异常，用户可以使用。，在建表的同时指定一个实际数据的路径（LOCATION）--将以上内容写入sql文件中，再用source。--在beeline命令行中执行sql文件。

2024-07-01 22:00:57 968 1

原创 hive命令和参数

beeline -u jdbc:hive2://bigdata004:10000 -root -f 文件地址。2.在hive-defalut . xm1中设置参数(有效性是永久)|hive -e "" 在hive命令中直接执行简单的sql语句。在hive命令行或者beeline命令行中查询hive的参数。1.在hive-siter xm1中设置参数(有效性是永久)hive -H 查询hive的可用参数。在hive命令中执行sql文件。在hive命令中新建hive变量。----查询当前所在数据库。

2024-07-01 16:37:43 777

原创启动hive

2.使用hiveserver2命令，启动hiveserver2后，使用beeline命令，进行beeline命令行。nuhup:放在命令的开头，用于表示执行的命令处于不挂起，即使关闭窗口，该命令依旧运行。hiveserver2启动后，其他命令就无法使用了，得复制一个窗口。1.使用hive命令进行hive命令行 UI比较简陋，很少使用。3.基于hiveserver2的使用不便，对该方式进行进阶。就启动了 hiveserver2和beeline。2：表示的是错误日志输出。直接输入hive命令。

2024-06-28 10:00:55 2284

原创 hive安装

把hive的压缩包上传到虚拟机的目录我这里是解压文件到 /opt/softs修改文件名到中配置环境变量添加退出后一下把mysqljar包丢进来。

2024-06-27 15:47:01 402

原创 Linux安装Mysql

将安装包上传到虚拟机的一个目录，我这里是/opt/install_packages--检查mysql的安装环境rpm-qa|grepmariadb--上述命令如果查询到mariadb需要先进行卸载rpm-e--nodepsmariadb-libs再检查一下安装环境此时mariadb已经删除将上传的文件解压到当前目录tar -xf mysql-5.7.28-1.el7.x86_64.rpm-bundle.tar

2024-06-27 11:25:20 487

原创自定义排序

在Hadoop MapReduce框架中，当Mapper的输出键（Key）或者Reducer的输入及输出键上实现。此时迭代器里的是Text（Iterable<Text>），用户名，只有用户名就没有迭代的意义了。当Mapper的输出键（Key)上实现。以及构造函数，get，set方法等。接口时，框架会自动利用该接口的。接口时，框架会自动利用该接口的。重写compareTo方法。这里的Map阶段输出的键是。和map阶段输出键值一样。

2024-06-26 19:55:05 458

原创 mapreduce分区

计算用户消费的总金额，根据用户的不同性别，将结果输出到不同的文件中。其中返回的0，1，2表示最终输出文件的。

2024-06-26 18:28:13 538

原创 mapreduce实现bean的序列化与反序列化

在Hadoop中，这个过程特别关键，因为数据经常需要在网络间传递（例如，从Map任务到Reduce任务），或者存储到HDFS上。在Hadoop中，当数据从网络接收或从HDFS读取后，需要通过反序列化恢复成原始的Java对象，以便程序能够进一步处理这些数据。reduce阶段的输出value类型，表示用户对象，实际上输出的是totalPrice（因为toString方法的重写）reduce阶段的输入value类型，即map阶段输出value类型，表示用户对象。reduce阶段的输出key类型，表示用户名。

2024-06-26 18:21:10 1410

空空如也

空空如也