- 博客(38)
- 收藏
- 关注
原创 ResourceManager 与 JobManager与 TaskManager 三者的协作关系
Flink架构中ResourceManager,JobManager,TaskManager之间的协作关系
2024-10-23 11:23:32
956
原创 zookeeper的作用--有无zookeeper的区别
没有ZooKeeper需要手动处理配置管理、服务发现、分布式锁、集群管理等问题。实现复杂,容易出错,难以保证一致性。维护成本高,扩展性差。有ZooKeeper提供了现成的解决方案,简化了分布式系统的开发和维护。保证了一致性和可靠性,提高了系统的稳定性和性能。易于扩展和维护,降低了开发和运维的成本。通过这些具体的例子,可以看到ZooKeeper在分布式系统中起到了至关重要的作用,使得系统更加健壮、可靠和易于管理。
2024-10-23 10:07:29
1311
原创 序列化与反序列化
网络传输:将数据转换为字节流以便在网络上传输。磁盘存储:将数据序列化后写入磁盘,以便持久化存储。内存缓存:在内存中缓存序列化后的数据,以提高处理效率。因此,虽然MapReduce中的大部分数据最终会被写入磁盘,但在处理过程中,数据也会在内存中以序列化后的字节流形式存在,以便于高效的管理和传输。
2024-10-23 09:40:59
1003
原创 Flink本地安装
如果失败,尝试修改flink1.17.2/conf/flink-conf.yaml。解压完成后进入flink-1.17目录,执行以下命令启动flink服务。之后尝试打开flink的webui。改成自己主机的ip地址。
2024-10-21 11:33:48
477
原创 通过dbeaver连接本地pg库
保存文件为 C:\PostgreSQL\15.4.1\password.txt,确保没有扩展名 .txt,并且文件编码为 ANSI 或 UTF-8 无 BOM。创建一个包含密码的文本文件。例如,创建一个名为 password.txt 的文件,并在其中写入密码。使用 initdb 命令重新初始化数据库集群,并指定 postgres 用户和密码文件。如果一切正常,会看到一系列的信息输出,表明数据库集群已经被成功初始化。:指定包含密码的文件路径。输入密码(例如123)。:指定数据目录的位置。用户连接到数据库了。
2024-09-26 11:31:04
2078
原创 spark shell
2.1.1读取linux文件系统的文件创建RDD。2.1.2读取hdfs文件系统上的文件创建RDD。--需要保证每一个worker中都有该文件。--过滤数据,保留每行中含有hello的数据。2.2使用Parallelize创建RDD。2.3从其他的RDD中创建新的RDD。--对RDD中的数据进行过滤操作。--统计RDD中的数据记录表。2.1 读取文件创建RDD。--读取RDD的第一条数据。4.实现wordcount。1.进行shell命令行。3.对RDD进行操作。--读取中的N条数据。
2024-07-19 16:04:56
650
原创 Spark安装
启动命令在/opt/softs/spark3.1.2/sbin 目录下的。配置worker里的hostname。三台都配置spark环境变量。导入压缩包,解压改名。将修改传给其他虚拟机。
2024-07-18 18:53:46
277
原创 habase集群安装
进入 /opt/softs/hbase2.4.11/conf 目录。改名 mv hbase-2.4.11/ hbase2.4.11。将其他虚拟机也在/etc/profile中配置一下环境变量。修改 hbase-env.sh 在里面修改以下内容。修改hbase-site.xml。解压到/opt/softs目录。启动hdfs和zookeeper。命令start-hbase.sh。修改/etc/profile。访问hbase的web页面。传到另外两台虚拟机上。
2024-07-15 19:04:23
436
原创 Hadoop的HA模式搭建
准备三台虚拟机1.修改虚拟机的IP地址和hostname2.配置集群中的ip映射(/etc/hosts)3.关闭虚拟机的防火墙4.集群间实现免密登录每台虚拟机都执行类似操作。
2024-07-11 18:52:23
1693
原创 zookeeper的shell操作
- 在已有的持久节点/node1中创建持久非顺序子节点/node1/child1 该节点存储的数据"def"-- 在已有的持久节点/node1中创建临时非顺序子节点/node1/child2 该节点存储的数据"def"-- 创建持久顺序节点 节点名称为 /node2_ 该节点中存储的数据为"456"-- 创建临时非顺序节点 节点名称为/node3——tmp 该节点中存储的数据为"789"-- 创建临时顺序节点 节点名称为/node3——tmp 该节点中存储的数据为"789"
2024-07-10 16:16:21
1188
原创 图书馆数据仓库
主机名 数据库。图书类别表 dim_books_type 5条。用户表 t_user_info 38条数据。借书表 t_borrow_info,hdfs上的数据库位置。包含 图书表 t_book_info,-- sqoop导出数据到mysql。导入dim_books_type。端口号 mysql中的数据库名。在hive中建立映射的数据库。
2024-07-05 21:10:32
1140
2
原创 mysql修改字符集为UTF-8
在mysql命令行下查询mysql状态##退出mysqlmysql>exit;##关闭mysql##添加如下内容[client][mysqld]collation-server=utf8_general_ci 完成。
2024-07-05 15:24:38
1492
原创 电商数据仓库
1.数据仓库的数据来源为业务数据库(mysql)2.通过sqoop将mysql中的业务数据导入到大数据平台(hive)3.通过hive进行数据计算和数据分析 形成数据报表4.再通过sqoop将数据报表导出到mysql5.使用FineReport制作数据报表。
2024-07-04 20:37:13
873
1
原创 hive内置函数
-newtype cast(attr as newtype): 将字符串attr转换成newtype类型。//字符串的起始索引位置为1,从索引位置为5的字符开始截取 到字符串的结尾。如果截取的起始索引位置为负数,表示从字符串的末尾位置开始 向前找到索引位置。--根据指定的分隔符拼接字符串: concat_ws()--返回浮点数的指定小数位置,进行四舍五入后的值。--ltrim():去除字符串左侧的空格。--rtrim():去除字符串右侧的空格。----获取字符串拆分后的元素。7.将大写字母转换成小写。
2024-07-03 10:35:52
1981
原创 hive小练习 拓展
- 3. 查询每门课程的平均成绩,结果按平均成绩升序排序,平均成绩相同时,按课程号降序排列。--1.每门课程:按课程分组 查询每门课程id的及格人数。--1.查询两门以上课程不及格的学生id和平均成绩。-- 6. 查询平均成绩大于85的所有学生的学号、姓名和平均成绩。--2.与学生表连接 查询学生的学号姓名。--1.查询课程分数小于60分的学生id。--2.与学生表连接 查询学生的学号姓名。--1.查询平均成绩大于85分的学生学号。--2.与学生表链接,查询学生姓名。--2.与学生表连接。
2024-07-03 08:39:06
1031
原创 hive表小练习
字段为course_name 类型为string,注释为课程名。字段为course_id 类型为string,注释为课程id。字段为course_id 类型为string,注释为课程id。字段为stu_name 类型为string,注释为学生姓名。字段为stu_id 类型为string,注释为学生id。字段为tea_id 类型为string,注释为教师id。字段为tea_id 类型为string,注释为教师id。字段为stu_id 类型为string,注释为学生id。创建表名为course_info,
2024-07-02 12:15:44
456
原创 hive的表操作
hive在删除表的时候,内部表的元数据和数据会被一起删除,而外部表只删除元数据,不删除数据。先启动hdfs ,mysql , hiveservice2,beeline。对于之前创建的带注释的表emp2不起效果,一=应该重新创建一个注释的表。--将以上内容写入sql文件中,再用source 执行文件。创建一个指定名字的表,如果名字相同抛出异常,用户可以使用。,在建表的同时指定一个实际数据的路径(LOCATION)--将以上内容写入sql文件中,再用source。--在beeline命令行中执行sql文件。
2024-07-01 22:00:57
968
1
原创 hive命令和参数
beeline -u jdbc:hive2://bigdata004:10000 -root -f 文件地址。2.在hive-defalut . xm1中设置参数(有效性是永久)|hive -e "" 在hive命令中直接执行简单的sql语句。在hive命令行或者beeline命令行中查询hive的参数。1.在hive-siter xm1中设置参数(有效性是永久)hive -H 查询hive的可用参数。在hive命令中执行sql文件。在hive命令中新建hive变量。----查询当前所在数据库。
2024-07-01 16:37:43
777
原创 启动hive
2.使用hiveserver2命令 ,启动hiveserver2后 ,使用beeline命令,进行beeline命令行。nuhup:放在命令的开头,用于表示执行的命令处于不挂起,即使关闭窗口,该命令依旧运行。hiveserver2启动后,其他命令就无法使用了,得复制一个窗口。1.使用hive命令 进行hive命令行 UI比较简陋 ,很少使用。3.基于hiveserver2的使用不便,对该方式进行进阶。就启动了 hiveserver2和beeline。2:表示的是错误日志输出。直接输入hive命令。
2024-06-28 10:00:55
2284
原创 hive安装
把hive的压缩包上传到虚拟机的目录我这里是解压文件到 /opt/softs修改文件名到中配置环境变量添加退出后一下把mysqljar包丢进来。
2024-06-27 15:47:01
402
原创 Linux安装Mysql
将安装包上传到虚拟机的一个目录,我这里是/opt/install_packages--检查mysql的安装环境rpm-qa|grepmariadb--上述命令如果查询到mariadb需要先进行卸载rpm-e--nodepsmariadb-libs再检查一下安装环境此时mariadb已经删除将上传的文件解压到当前目录tar -xf mysql-5.7.28-1.el7.x86_64.rpm-bundle.tar
2024-06-27 11:25:20
487
原创 自定义排序
在Hadoop MapReduce框架中,当Mapper的输出键(Key)或者Reducer的输入及输出键上实现。此时迭代器里的是Text(Iterable<Text>),用户名,只有用户名就没有迭代的意义了。当Mapper的输出键(Key)上实现。以及构造函数,get,set方法等。接口时,框架会自动利用该接口的。接口时,框架会自动利用该接口的。重写compareTo方法。这里的Map阶段输出的键是。和map阶段输出键值一样。
2024-06-26 19:55:05
458
原创 mapreduce实现bean的序列化与反序列化
在Hadoop中,这个过程特别关键,因为数据经常需要在网络间传递(例如,从Map任务到Reduce任务),或者存储到HDFS上。在Hadoop中,当数据从网络接收或从HDFS读取后,需要通过反序列化恢复成原始的Java对象,以便程序能够进一步处理这些数据。reduce阶段的输出value类型,表示用户对象,实际上输出的是totalPrice(因为toString方法的重写)reduce阶段的输入value类型,即map阶段输出value类型,表示用户对象。reduce阶段的输出key类型,表示用户名。
2024-06-26 18:21:10
1410
原创 linux模板安装二
打开 MobaXterm配置好之前创建的虚拟机的ipping一下,看看我们的网络配置是否成功关闭NetworkManager服务(只针对本次虚拟机运行时有效)禁用NetworkManager服务禁用之后 重启网络修改主机名称为data重启一下查询防火墙状态关闭防火墙禁用防火墙。
2024-06-02 18:09:33
371
原创 linux模板安装一
这里创建一个文件夹用来存放我们虚拟机 目录为 D:\bigdata\os\data。配置我们自己的iso映像文件,我这里使用的是CentOS。根路径 不设置容量,文件系统为 ext4。0和2要设置,前面的可以不一样。点击更改适配器设置,这里应该显示已启用。容量设置为 4g 文件系统为swap。分别修改成static和yes。选择CentOS 7 64位。中自己的数字,我这里是111。将虚拟磁盘存放到刚刚的。文件系统这里选择ext4。取消勾选启用kdump。之后就可以点击完成了。
2024-06-02 16:36:57
405
原创 调用hdfs的api
创建一个项目在pom.xml中添加以下命令,用maven导入以下jar包在java目录下创建软件包,里面添加类HdfsApiClientConfiguration conf = new Configuration() 是读取本地hadoop的配置文件记得抛出异常。
2024-06-01 21:39:46
501
原创 hadoop的Windows环境准备
将windows依赖中的bin粘贴到下载的hadoop3.1.3的bin里,重复的替换就行。将里面的hadoop.dll文件复制一份到 C:\Windows\System32。PATH里配置对应的bin,将hadoop里的bin的路径添加进去。配置hadoop的环境变量,复制hadoop3.1.3的路径。其中的share太大并且用处不大,可以删除。拷贝一份 hadoop3.1.3。
2024-06-01 16:36:32
486
原创 安装分布式
在Hadoop的配置文件中,需要设置YARN ResourceManager和NodeManager应该使用的用户账户,在03的/etc/profile中加入。
2024-05-30 20:24:16
1071
原创 prototype属性
简单来说,`prototype`是一个对象,用于存储共享的属性和方法,这些属性和方法可以被它的所有实例所继承。这意味着,通过构造函数创建的所有实例都可以访问到`prototype`上定义的属性和方法。3. 原型链:形成查找机制,当试图访问一个对象的属性或方法时,如果对象本身没有,JavaScript引擎会继续在其原型对象中查找,这个过程会一直延续到原型链的末端。每个JavaScript的函数都有一个`prototype`属性,该属性是一个特殊的对象,当函数作为构造函数创建新对象时,
2024-05-22 20:35:08
492
原创 校园导游咨询预习报告
本次课程设计要求协助中国大学生计算机设计大赛江苏省组委会,设计一款赛事管理系统,实现赛务相关的数据管理及信息服务,该系统能够为省级赛事管理解决以下问题:(1)能够管理各参赛队的基本信息(包含参赛队编号,参赛作品名称,参赛学校,赛事类别,参赛者,指导老师),赛事类别共11项(参见大赛官网包括增加、删除、修改参赛队伍的信息。(2)从team.txt中读取参赛队伍的基本信息,实现基于二叉排序树的查找。
2023-06-08 09:37:43
511
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅