自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(26)
  • 收藏
  • 关注

原创 hive-----广电大数据分析

1.创建存储格式为TextFile的观看历史表text_see和用户信息表text_user(用于存储原始数据)。并创建存储格式为ORC的表orc_see和orc_user。12. 对orc_see表按照用户Group By聚合,然后统计组内的时长即可。3. 用户信息文件userevents.txt存储在本地系统/opt/datas目录下,将其导入表text_user中。5. 将表text_user中数据加载到表orc_user中。4. 将表text_see中数据加载到表orc_see中。

2025-11-26 20:23:01 919

原创 hive---案例11-1 影评大数据分析

(1)将表answer7_A中的type字段进行裂变,将结果保存到表answer8_A中。(2)表answer7_A按照电影类型中是否包含Comedy和按照评分≥4.0作为Where过滤条件,按照评分作为排序条件进行查询,将结果保存到表answer7_B中。lcase函数把字段的值转换为小写。12. 统计最喜欢看电影(影评次数最多)的那位女性评分最高的10部电影的平均影评分(观影者、电影名、影评分)。9. 统计评分次数最多的10部电影,并给出评分次数(电影名、评分次数)。

2025-11-20 19:39:16 1004

原创 数据采集333

2025-11-17 20:30:38 709

原创 Hive---案例7-6 列转行

疑犯追踪 悬疑,动作,科幻,剧情Lie to me 悬疑,警匪,动作,心理,剧情特种部队 战争,动作,灾难。

2025-11-13 11:41:55 343

原创 Hive案例7-7 统计单词出现次数

hello,java。

2025-11-13 11:31:26 315

原创 hive案例--员工信息分析

英文名:EMPNO,ENAME,JOB,MGR,HIREDATE,SAL,BONUS,DEPTNO。8. 列出在部门“SALES”(销售部)工作的员工的姓名,假定不知道销售部的部门编号。字段:员工id,员工名字,工作岗位,部门经理,受雇日期,薪水,奖金,部门编号。5. 列出部门名称和这些部门的员工信息,同时列出那些没有员工的部门。3. 列出所有员工的姓名及其直接上级的姓名。2. 列出薪金比“SMITH”多的所有员工。4. 列出受雇日期早于其直接上级的所有员工。1. 列出至少有一个员工的所有部门。

2025-11-06 11:55:10 553

原创 Hive 分桶详解与实战案例

优化原理: 在桶连接中,由于两个表在order_id上分桶方式一致,具有相同order_id的记录必然落在相同编号的桶文件中。因此,在Map阶段,Hive可以直接将对应桶的数据进行连接,避免了Shuffle阶段,大大减少了网络I/O和数据传输,提升了性能。(2)优化Map-Side Join: 当两个表在同一个列上进行分桶,且桶的数量成倍数关系时,Hive可以执行高效的Map-Side Join(桶连接)。(3) 提高某些查询性能: 对于带有分桶列过滤条件的查询,可以只扫描相关的桶,减少I/O。

2025-11-06 10:23:07 939

原创 hive---HQL查询

18999063 宋传涵 女 1999-07-20 上海 86 100 1000。18008026 侯楠楠 男 2000-01-29 北京 79 200。18007051 温勇元 男 1999-08-08 上海 65 500。18007095 卢昱泽 女 1998-08-01 上海 57 500。

2025-11-04 22:13:19 902

原创 【无标题】

建一分区表bigdata,按班级、性别分区,每个分区分两个桶,按id分桶,每个桶的数据按id升序排序。准备数据: 一个数据文件,也可以是三个,修改数据,把sex的值加上。把2201,2201,2203班数据导入。(1)静态分区:分区字段指定值。①向中间表导入数据:(一个)②向中间表导入数据:(三个)

2025-10-30 11:50:21 272

原创 SparkSql常用函数(2)

摘要:本文介绍了Spark SQL常用操作函数,包括数据查看(show)、结构查看(printSchema)、文件读取(read)以及数据筛选(where)、统计(count)等核心功能。通过图书和学生信息两个案例,演示了如何实现条件查询、字段选择、数据排序等操作。重点讲解了CSV和JSON文件的读取方式,以及如何组合使用select、where、orderBy等函数完成复杂查询任务,如筛选特定评分范围的图书或对学生成绩进行排序和计算。

2025-10-25 14:15:54 711

原创 hive---六个分区

2023年计算机专业数据。

2025-10-22 09:25:08 653

原创 Scala 语言基础 和 Spark SQL 的基本操作

存储多个元组,每个元组表示一个人的信息(姓名、性别、年龄)。注意:数组末尾不能有多余的逗号(否则会报错)。创建了一个包含不同类型元素的元组。将列表转换为 DataFrame。等字段的 DataFrame。读取后自动推断结构,生成包含。通过下标访问数组元素,如。读取本地 JSON 文件。等方式访问元组中的元素。

2025-10-16 21:54:34 208

原创 hive----静态、动态分区表

分区------处理海量数据根据数据文件结构考虑分门别类保存(大化小),使用分区,创建分区表,提高查询效率指定分区字段,分区字段被称为伪列。数据文件中没有和分区字段对应的数据分区可以分为一级分区(分区字段是一个字段),二级分区(分区字段是二个)。。。。。。分区可以是静态分区(导入数据时 ,指定分区字段的值)动态分区(导入数据时,不需要指定分区字段的值,由系统根据数据文件的情况自行判断)。

2025-10-16 11:46:17 1028

原创 如何启动spark

三台机子同时进行:jps。出现以上图案即启动成功。

2025-10-16 09:19:49 193

原创 hive复杂类型数据详解—array,map,struct

map 是一种(key-value)键值对类型;array 是一种数组类型,array 中存放相同类型的数据;struct 是一种集合类型。二、建表语句查看表结构再重启一个master进程,输入一下内容(中间使用tab键)分隔符要与建表语句一致,如此表指定每列字段之间用tab分割,数据之间用“|”分隔,map的key与value之间用冒号“:”分隔,回车换行将数据载入表中查看三种类型的数据三、类型构建select。

2025-10-14 11:24:58 609

原创 Spark详细安装过程

上传到/opt/software/下。

2025-10-09 11:35:10 793

原创 第1章 Hive数据仓库基础及案例4-1

在/opt/datas目录下准备数据,创建test.txt文件并添加数据:编辑vim test.txt 文件,将下列内容输入到文件中(注意:中间的空格是Tab,上下不可以有空行)

2025-09-25 10:17:48 285

原创 数据存储Hive详细安装步骤

输入以下命令。

2025-09-16 17:06:52 768

原创 当遇到没有yum源时如何解决

再将yum makecache输入到对话框中,最后输入yum -y install nc即可安装成功。将下述网址复制到Master中,打开浏览器:在搜素框输入阿源。点击阿里云开发者社区。

2025-09-12 09:46:47 225

原创 【HDFS综合案例】

或者双击进入直接创建。

2025-05-13 15:54:43 207

原创 Hadoop集群配置(未完版)

上传完成后,查看ls -l 再全部删除 rm -rf *-----------最后加载插件。退出后返回 cd /etc/yum.repos.d/ 下,上传后,记得勾选对钩。-- 配置 HDFS 网页登录使用的静态用户为 atguigu -->-- 指定 hadoop 数据的存储目录 -->-- 指定 NameNode 的地址 -->

2025-04-15 11:43:10 333

原创 Hadoop3.1.4完全分布式群集搭建

但要注意的是,上面的命令只是临时关闭了CentOS 7防火墙,当重启操作系统后,防火墙服务还是会再次启动。在图中能够看到包含两个文件分别是私钥和公钥,其中id_rsa为生成的私钥,id_rsa.pub为生成的公钥。3.在slave1和slave2 上也修改hosts文件,追加内容和步骤1的内容相同,然后重复步骤2。禁用防火墙之后再次查看防火墙是否被关闭,若没有出现disabled字样,则没有关闭防火墙。若没有关闭防火墙则无法进行以下步骤!配置完成后保存退出,使用。即BOOTPROT="static"

2025-04-06 19:55:31 1052

原创 JAVA 简答题类型

通常用于判断整数i是否能被2整除。当i除以2的余数等于0时,这个表达式的值就为真(True),意味着i是偶数;如果余数不等于0,则值为假(False),表明i是奇数。六、输入一个整数,分别求出其个位、十位的输出。

2024-12-30 11:47:19 462

原创 第二章 标识符、常量、变量

由字母、数字、下划线-、美元符号$,不能以数字开头,不能是关键词。

2024-12-23 11:29:32 785

原创 第一章 编写第一个JAVA程序总结

1 .编写源文件,后缀是.java,其次源文件的文件名要与主类名一致;2.编译源文件(javac.exe),生成一个字节码文件(.class) 格式:javac 文件名…java3.运行字节码文件(java.exe),格式 java 类名修饰符class类名{程序执行代码public class Hello + 文件名 {psvm(在IJ中的缩写)//sout。

2024-12-23 10:58:22 644

原创 Linux入门

ifconfig 查看网卡的配置信息(inet为当前的IP地址;netmask为当前虚拟机的子网掩码;gateway1为网关;DNS为服务器)

2024-11-19 21:39:23 250

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除