- 博客(26)
- 收藏
- 关注
原创 spark rdd
按 RDD 操作类型和功能场景,将所有涉及的函数分为RDD 创建函数行动操作函数普通转换操作函数键值对 RDD 专属函数四大类,清晰呈现每个函数的用途、特性和示例。
2025-12-31 08:32:04
436
原创 hbase 电商1
(2) 修改列族 TTL & 压缩(原文示例表名是 students,实际对应 shopping)(4) ColumnPrefixFilter 过滤(列名前缀 = date)(6) PrefixFilter 过滤(行键前缀 = 0000000001)(3) QualifierFilter 过滤(列名包含 re)(2) ValueFilter 过滤(值 = Wu Han)(7) FamilyFilter 过滤(列族名包含 er)(5) RowFilter 过滤(行键包含 - L)(2) 创建表 & 列出表。
2025-12-30 09:20:33
403
原创 数据采集-----案例
(6)运行产生业务数据的脚本,向mysql数据库中注入数据,并且观察kafka消费者中消费到的数据。(8)运行Datax采集工具,将HDFS上指定的数据内容到Mysql数。(9)启动FineBI报表工具,将mysql数据库中的数据进行展示\。(若内存太小,无法启动)(解决方法:停掉所有的集群,只启动这个)(7)启动flume数据采集通道,将数据从kafka集群上的。(3)启动kafka集群,并且开启kafka消费者消费。(4)启动efak对kafka集群的监控平台。#添加拦截器的配置对数据进行处理。
2025-12-17 19:33:59
1034
4
原创 hive案例
substring_index(floor_level,'(',1) as floor_level, substring_index(substring_index(floor_level,'共',-1),'层',1) as total_floor,
2025-12-02 10:08:49
332
原创 hive分区
定义:分区表是 Hive 中一种将数据按照指定列(分区列)的值进行分类存储的表。它通过在文件系统(如 HDFS)上创建不同的目录来区分不同分区的数据。核心目的优化查询性能:查询时可以通过WHERE子句指定分区列的值,Hive 会直接扫描对应的分区目录,而无需扫描整个表的数据,从而大幅提升查询速度。数据管理:便于按业务维度(如日期、地区、部门)对数据进行管理、加载和删除。例如,可以只加载或删除某一天的日志数据。
2025-11-25 09:37:21
380
原创 Hive 桶表的创建、数据导入、查询与导出
定义:桶表是 Hive 中一种用于优化查询性能的数据存储方式。它通过对指定列(分桶列)的值进行哈希(Hash)计算,然后根据哈希值将数据均匀地分配到多个文件(桶)中。核心目的优化 Join 操作:当两个表在 Join Key 上有相同的分桶时,Hive 可以执行高效的分桶连接(Bucket-to-Bucket Join),大幅减少数据 shuffle。高效采样查询:可以直接查询特定的一个或几个桶,而无需扫描整个表,适用于数据分析和采样。数据均匀分布。
2025-11-25 09:32:47
426
原创 spark
将字段 "old_name" 重命名为 "new_name"会只保留数据中的 "name" 和 "age" 两个字段。用于筛选满足指定条件的记录,两者功能基本相同。表示按部门分组,在每个部门内按工资降序排列并标记行号。这些操作可以组合使用,实现复杂的数据处理和分析需求。对数据按照指定字段进行排序,默认是升序。用于从数据集中筛选出需要的特定字段。为数据集或字段起别名,方便后续引用。:根据指定字段对数据进行分组。会移除所有含有空值的记录。计算每个部门的平均工资。
2025-10-13 08:29:20
477
原创 hive的安装
- Server2的高可用参数,开启参数可以提高hiveservers2的1启动速度-->-- Hive数据仓库的数据存储在HDFS上的目录-->-- Hive Server2 的连接host-->-- Hive Server2 的连接端口-->-- JDBC的连接username-->-- JDBC的连接的Driver-->--hive连接数据库URL-->--存储元数据要连接的地址-->-- 元数据储存版权的认证-->或者 quit;-- JDBC的连接密码-->-- 元数据存储授权-->
2025-09-25 21:40:05
977
原创 java多态类型转换
掌握类型转换是理解 Java 多态机制的关键,它允许在保持代码灵活性的同时,精确控制对象方法的调用。是处理对象引用时的重要机制,尤其是在多态场景下。当使用父类引用指向子类对象时(如。,但编译器会根据引用类型(而非实际对象类型)检查方法是否存在。要调用子类特有的方法(如。类型,但编译器只允许调用父类。在进行向下转型前,建议使用。类型,因此无法直接调用。检查对象实际类型,避免。
2025-06-20 19:37:00
342
原创 java知识总结
1.数组:可以同时存放多个数据的容器,但是要求具有相同的数据类型特点:1.数组是一种引用数据类型2.数组中多个数据类型需一致3.数组长度在运行期间不可变数组的初始化:1.静态初始化:指定内容:数据类型[] 数组名 = new 数据类型[] {元素1,元素2,元素3.。。。省略格式: 数据类型[] 数组名 ={元素1,元素2,元素3.。。。2.动态初始化:指定长度:数据类型[] 数组名 = new 数据类型[长度];注;1.静态初始化可以根据内容来推算长度。
2025-06-19 16:15:45
1992
原创 java类和对象
1.类:它是对事物的抽象描述,是创建对象的模板,其中包含了属性(字段)和行为(方法)。2.对象: 对象是类的实例,通过关键字来创建。3.构造方法:用于对象的初始化,它的名称要和类名相同,并且没有返回值。4.重载:同一个类可以有两个或两个以上的方法使用相同的方法名,但是他们的参数不同(参数类型或个数不同,这个过程称为方法的重载。 5.封装:是指将数据(字段)和操作数据的方法绑定在一起,通过访问修饰符来控制对属性的访问。 6.继承:继承允许一个类继承另一个类的属性和方法,使用extends关键
2025-06-18 16:41:28
168
原创 java数组
数组属于引用数据类型,用于存放相同类型的多个元素。它有静态初始化和动态初始化两种初始化方式。声明和创建//声明int []achar []b//创建数组名 =new 类型[长度]// 静态初始化// 动态初始化// 默认值为0。
2025-06-18 15:39:13
146
原创 hdfs文件目录操作
7.移动本地linux操作系统下的input.txt到HDFS的/姓名全拼/input/下。8.在本地linux操作系统下的创建input2.txt,输入一些内容。5.将input.txt上传到HDFS的/姓名全拼/input/下。9.将input2.txt追写到HDFS的input.txt中。3.在input目录下创建aaa/bbb/ccc。2.在姓名全拼的文件夹下,创建input目录。11.查看HDFS上input.txt的内容。1.在HDFS的/下创建姓名全拼的目录。
2025-05-27 21:54:03
343
原创 java继承
1.定义: 继承就是用 extends 关键字,让一个类和另一个类建立起一种父子关系。单继承:java当中的继承是单继承,一个类只能与一个直接父类(可以多及继承)1.子列可以拥有父类的所有非private修饰的内容(包括成员变量,方法)继承中成员方法重名时的访问特点:创建的对象是谁,就优先用谁。总结:无论是成员变量/方法重名时,首先要看创建的对象是谁,就优先用谁。2.子类还可以拥有自己独有的内容(包括成员变量,方法)没有的话都是向上找父类里的,不会向下找子类里的。本类的成员变量:this.重名的变量名。
2025-04-28 09:50:17
145
原创 java 接口
请遍历Usb数组,如果是Phone对象,除了要调用Usb接口的第一方法外,还需调用Phone中的特有方法call;接口就是给出一些没有实现的东西,封装在一起,到某个类要使用的时候,再根据具体情况把这些方法写出来。2.接口中的所有方法是pubic 方法,接口中的抽象方法,可以不用abstract修饰。jdk8.0后 接口可以实现有静态方法,默认方法,也就是说接口中可以有方法的具体实现。jdk7.0前 接口的所有的方法都没有方法体,即都是抽象方法。3.一个普通的类实现接口,必须将接口的所有的方法都实现。
2025-04-14 10:45:43
977
原创 java 抽象类
1.编写方法 calculate Time(),可以计算某代码的耗时速度。3.编写子类AA 继承抽象类Tempate,并实现job方法。抽象方法:就是没有实现的方法(没有实现就是没有方法体)4.编写一个测试类xunxing 运行。1.有多个类,完成不同的任务job。2.要求统计得到完成任务的时间。2.编写抽象方法job();
2025-04-10 19:05:23
400
原创 Hadoop 集群搭建常见错误
编辑---虚拟网络编辑器:查看Vmnet8的子网地址,和本机的ip地址比对前三个数字,必须一致才可以。未知的名称或服务----检查/etc/hosts映射文件写的是否有问题。1.网卡配置文件中写的有错误---重新检查编辑网卡配置文件。如果不是已连接---已启用的状态,只需要把如图的复选框勾选。1.所连接的会话Ip地址不正确---修改会话的ip地址。1.对应的Nat服务未开启----开启该服务就可以了。3.未知的名称或服务---DNS配置有问题。2.网络不可达---网关配置有问题。2.修改主机名的命令错误。
2025-04-09 11:48:15
688
1
原创 hadoop集群搭建
1.创建虚拟机命名为m1,m2,m3查看ip地址ip addr2. 连接mobaxterm3.修改主机名4.配置静态ip# 添加IPADDR,对应的值要与原ip在同一网段# 添加NETMASK,指定子网掩码,默认为255.255.255.0# 添加GATEWAY,要与虚拟机网卡的设置一致,默认仅主机模式为1,NAT模式为2# 如果需要连入外网,则可以添加DNS1和DNS2配置,通常会将DNS1指定为网关地址DNS1=网关地址。
2025-04-06 14:17:25
1646
1
原创 MySQL select语句
查询goods表中num的值为null的记录。7.字符匹配查询(like % _)5.查询结果不重复(DISTINCT)6.范围查询(BETWEEN AND)查询goods表中的id为1和3的值。8.排序查询(ORDER BY)9.限制查询数量(limit )
2025-04-02 19:54:33
386
原创 java 代码块
static代码也叫静态代码块 作用就是对类进行初始化,而且它可以随着类的加载而执行,而且只会执行一次,如果普通,则每创建一个对象调用一次。代码块称初始化块,属于类中的成员[即类的一部分],类似于方法,讲逻辑语句封装在方法体内通过{}包围起来。当存在继承方法时,构造方法,静态代码块,静态属性初始化,普通代码块,普通代码初始化。相当于另一种形式的构造器(对构造器的补充机制)可以做初始化的操作。构造器的前面隐藏了super()和调用普通代码块。创建一个对象时,在一个类中调用的顺序时。
2025-04-02 19:11:12
228
原创 web前端表签大全
瞄点链接 <标签名 id="命名的描点" ><标签名 / > <a href="#命名的描点">跳转到本页面的描点处<a>图像标签 <img src="图像链接" alt="预备文字" title="鼠标指针显示的文字">< / img>超链接标签 超链接 <a href="跳转链接" target="窗口">< /a>标题标签 <h1></h1>......<h6>< / h6><textarea> 文本域 </ textarea>
2025-03-30 15:36:50
473
原创 mysql数据库的使用
CREATE DATABASE [IF NOT EXISTS] 数据库名 CHARACTER 指定字符集 COLLATE 校对规则。mysqldump -u 用户名 -p -b 数据库1 数据库2 > 文件名.sql。DROP DATABASE[IF EXISTS] 数据库。DROP DATABASE 数据库名。ALTER TABLE 表名。ALTER TABLE 表名。ALTER TABLE 表名。ALTER TABLE 表名。ALTER TABLE 表名。ALTER TABLE 表名。
2025-03-29 22:25:23
411
原创 java 类变量
加上static是类变量或静态变量 否则就成为实例变量|普通变量|非静态变量。(4)类变量是随着类的加载而创建的,所以没有创建对象实例也可以调用。当我们需要让某个类的所有对象都共享一个变量时,就可以考虑使用类变量。访问修饰符 static 数据放回类型 方法名(){}访问修饰符 static 数据类型 变量名。(1)static变量是同一类所有对象共享。(2) 任何对象访问时取得的对象都是相同的。类变量是共享的,而实例变量是独享的。(3) 任何修改都是针对同一变量。类变量在列加载的时候就初始化了。
2025-03-29 20:08:03
447
原创 mysql 统计
SUM 函数 返回满足WHERE的条件的行的和。SELECT COUNT(内容)FROM 表。SELECT COUNT(*)FROM 表。SELECT SUM(A) FROM 表。
2025-03-29 11:34:18
343
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅