筒栗子-优快云博客

原创复习打卡大数据篇——HIVE 03

在order by出现的情况下，不管用户设置几个reducetask,在编译执行期间都会变为一个。第一个参数指定要返回的第一行的偏移量，第二个参数指定要返回的最大行数。只返回两个表中都存在的记录。返回两个表的笛卡尔积，即左表的每一行与右表的每一行组合,结果集的行数等于左表的行数乘以右表的行数。则会保留所有行，包括重复的行。返回左表中的所有行，以及右表中满足连接条件的匹配行。会返回左边表的记录，前提是其记录对于右边的表满足ON语句中的判定条件。返回两个表中的所有行，如果某一行在其中一个表中没有匹配，则返回。

2025-01-07 23:56:38 1163

原创复习打卡大数据篇——HIVE 02

在Hive的建表语句中，和SerDe相关的语法为ROW FORMAT DELIMITED | SERDE....这一行，ROW FORMAT DELIMITED 表示使用LazySimpleSerDe类进行序列化解析数据，ROW FORMAT SERDE 表示使用其他SerDe类进行序列化解析数据。这样，在查询时只需扫描特定月份的数据，而不必扫描全年的数据，从而减少查询时间。也就是序列化和反序列化。：通过分区，Hive能够避免全表扫描，提升查询性能，尤其是在处理大规模数据时，分区是一种非常有效的优化手段。

2025-01-07 02:54:17 941

原创复习打卡大数据篇——HIVE 01

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。本质是将SQL转换为MapReduce程序。主要用来做离线数据分析。

2024-12-30 23:19:53 1231

原创复习打卡大数据篇——Hadoop YARN

YARN（Yet Another Resource Negotiator）是一个资源管理和调度平台，旨在为上层应用提供统一的资源管理。它的引入大大提升了集群在利用率、资源管理和数据共享等方面的效率。可以将YARN视为一个分布式操作系统平台，而MapReduce等计算程序则类似于运行在操作系统上的应用，YARN为这些程序提供所需的计算资源。

2024-12-25 21:02:57 1135

原创复习打卡大数据篇——Hadoop MapReduce

什么是MapReduceMapReduce是一个分布式运算程序的编程框架，核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在Hadoop集群上。MapReduce思想核心思想是：先分再合，分而治之，就是把一个复杂的问题先分为若干个小问题，计算后再汇总。map负责“分”，reduce负责“和”，这样做的好处是若干个小问题可以并行同时处理，彼此几乎无依赖关系，每个任务处理完都是一个局部的结果，最后reduce进行全局汇总计算，以此提升效率。

2024-12-24 17:34:40 2283

原创复习打卡大数据篇——Hadoop HDFS 03

然后SNN把fsimage加载到SNN的内存里，然后一条一条地执行edits文件中的各项更新操作，更新fsimage，更新完后生成一个最新的fsimage文件。里的内容更新内存元数据，使得内存元数据和实际的同步，因此内存中的元数据是最完整最新的元数据，用户可以对其进行读操作，接下来HDFS中的更新操作会重新写到。是元数据的一个持久化的检查点，包含Hadoop文件系统中的所有目录和文件元数据信息，但不包含文件块位置的信息。注意NN内存里的元数据始终是最新的，因为要及时的使用，加载到内存中，再根据。

2024-12-22 22:53:05 1230

原创复习打卡大数据篇——Hadoop HDFS 02

安全模式是 HDFS 的一种特殊运行状态，其主要功能是确保系统中的数据块安全并保持数据一致性。在安全模式下，HDFS 只允许执行读取操作，而不允许进行任何修改、删除或其他变更操作。这种保护机制通常在 NameNode（主节点）启动时启用，用来检查整个文件系统的健康状况。在 NameNode 启动后，系统会等待所有 DataNode（数据节点）报告自己存储的块信息。只有当 HDFS 中的大多数数据块副本达到预设的最低安全比例（通过配置参数定义）时，系统才会退出安全模式，恢复正常运行。

2024-12-20 21:50:25 981

原创复习打卡大数据篇——Hadoop HDFS 01

HDFS概念：HDFS是一个分布式的文件系统。分布式意味着多台机器存储，文件系统，就是用来存储文件、存储数据。是大数据最底层一个服务。故障的检测和自动快速恢复是HDFS的核心架构目标。面对海量数据的存储，注重吞吐能力，而不是交互式。支持大文件存储。一次写入多次读取。移动计算的代价比之移动数据的代价低。一个应用请求的计算，离它操作的数据越近就越高效，这在数据达到海量级别的时候更是如此。将计算移动到数据附近，比之将数据移动到应用所在显然更好。在异构的硬件和软件平台上的可移植性。

2024-12-19 21:28:35 1006

原创复习打卡大数据篇——Apache Hadoop

Hadoop是一个分布式系统基础架构，主要是为了解决海量数据的存储和海量数据的分析计算问题。组件包括：HDFS，是一个具有高可靠性、高吞吐量的分布式文件系统，用于数据存储；MapReduce用于处理业务逻辑运算；YARN负责作业调度与集群资源管理。HADOOP集群具体来说包含两个集群：HDFS集群和YARN集群，两者逻辑上分离，但物理上常在一起。HDFS集群：解决了海量数据存储分布式存储系统。YARN集群：集群资源管理任务调度。

2024-12-18 16:08:03 591

原创复习打卡大数据篇——Zookeeper

（1）这个软件是什么？Zookeeper是一个分布式协调服务的开源框架，主要用来解决分布式集群中应用系统的一致性问题。其本质上是一个分布式小文件存储系统，提供基于类似于文件系统的目录树方式的数据存储，并且可以对树中的节点进行有效管理。从而用来维护和监控你存储的数据的状态变化。通过监控这些数据状态的变化，从而可以达到基于数据的集群管理。（2）Zookeeper有什么特性？全局数据一致：集群中每个服务器保存一份相同的数据副本，client无论连接到哪个服务器，展示的数据都是一致的。可靠性。

2024-12-16 23:05:17 951

原创复习打卡Linux篇

用户 user：linux上可以创建不同的用户不同用户具有不同的权限，权限最高的用户叫做root 超级管理员用户，可以通过root去管理其他用户及权限。通过ll可以看到文件权限，如前面显示：-rw-r--r--，其中第一位-表示是文件，若是d则是文件夹，l是软链接，后面每三位一组，分别代表三个归属的权限。数字形式：r为4，w为2，x为1，没有权限为0，有什么权限加起来就行了，比如chmod 777 -R 文件|文件夹就是3类全权限。VI编辑器是linux平台上最强悍的文本编辑器。

2024-12-15 20:46:31 1128

原创复习打卡MySQL篇03

alter table 表名 add foreign key(外键) references 表名(主键) on DELETE cascade on UPDATE cascade;左外连接查询（语法左边数据表就是主表）：查询结果会保留主表中的所有数据，然后去右边中进行匹配，如果有与之匹配结果就显示，如果没有与其匹配的结果，则右表关联字段都为null。在一个 select 语句中,嵌入了另外一个 select 语句, 那么被嵌入的 select 语句称之为子查询语句，外部那个select语句则称为主查询。

2024-12-14 20:00:52 689

原创复习打卡MySQL篇02

第二个参数N，从M开始，查询N条记录（数据）代表只查询数据表中的前N条数据，实际工作中，limit子句也经常与order by配合使用。公式：select * from 数据表 limit (当前页-1)*每页显示数量, 每页显示数量;聚合函数会忽略空值，聚合函数查询是纵向查询，它是对一列的值进行计算，然后返回一个单一的值。需求：查询总记录数、总年龄和（虽然没什么意义）、最大年龄、最小年龄、平均年龄。分页查询：假如有99条数据，每页显示10条数据，求第4页SQL查询语句。需求2：查询年龄不是18岁的同学。

2024-12-13 22:43:11 1056

原创复习打卡MySQL篇01

外键约束用于确保一个表中的字段（外键）值必须在另一个表中已经存在，或者该字段的值可以为。insert into 数据表名称([字段1,字段2,字段3...]) values (字段1的值,字段2的值,字段3的值...);通过这种约束，数据库能够确保数据之间的引用完整性，防止出现“孤立”或无效的关联。update 数据表名称 set 字段1=更新后的值,字段2=更新后的值,... where 更新条件;主键拥有自动定义的唯一约束。它的作用是确保在一个表中存储的数据必须在另一个表中有对应的值。

2024-12-12 19:41:51 952 1

原创复习打卡python篇——面向对象与高级编程05

匹配满足正则表达式的结果（也只能匹配到第一个满足条件的结果），没有位置限制，在哪里都可以，search()方法返回的是一个re正则对象，必须通过result.group()才能获取结果，还可以专门用于获取分组中得到的数据。匹配所有满足正则表达式的结果（所有）没有位置限制，finditer()不仅可以匹配到整个正则匹配到的结果，其还可以专门用于获取分组中得到的数据，可以使用result.group(分组编号)获取分组内容。2. 匹配连续ABBA形数字，如1221，2332，使用分组和分组引用。

2024-12-11 21:24:36 796

原创复习打卡python篇——python面向对象与高级编程04

浅拷贝拷贝的如果是嵌套的可变数据类型，如[[]]，[()]，其只能拷贝最外层对象，内层对象无法拷贝，外层指向不同空间，内层指向相同空间。注意生成器中存储的并不是具体的数据，而是数据的生成规则，每次next()方法，系统会自动根据生成器的生成规则生成一个元素。浅拷贝如果拷贝的是一个简单可变类型的数据，相当于把其整体复制一份（产生新的内存空间），两者指向不同的地址。浅拷贝拷贝的如果时候一个不可变数据类型，如元组，其内存空间无法改变，所以两个变量会指向相同的内存空间。不仅可以拷贝外层对象，也可以拷贝内层对象。

2024-12-10 22:23:12 357

原创复习打卡python篇——python面向对象与高级编程03

答：多任务是指在同一时间内执行多个任务，现在电脑安装的操作系统都是多任务操作系统，可以同时运行着多个软件。

2024-12-09 21:46:20 1025

原创复习打卡python篇——python面向对象与高级编程02

执行说明：当执行f=func()时调用func()函数，定义局部变量result=0,定义inner()函数，此时inner() 函数只是定义，并没有执行，然后返回inner()函数的内存地址给f,此时f相当于inner。解释：当装饰的函数有参数时，inner、fn也要加上相应的参数，当有返回值时，由于我们实际执行的是inner，因此里面要返回其返回的内容才有意义。这样一来在函数执行完毕后，由于闭包引用了外部函数的变量，则外部函数的变量没有及时释放就能把函数内部的局部变量保存在内存空间中。

2024-12-08 21:37:59 397

原创复习打卡python篇——python面向对象与高级编程01

类名遵守一般的标识符的命名规则（以字母、数字和下划线构成，并且不能以数字开头），一般为了和方法名相区分，类名的首字母一般大写。这里定义了两个方法，其中self关键字指向了类实例对象本身。

2024-12-07 20:44:19 1253

原创复习打卡python篇——python基础05

readlines()方法，主s要用于读取文本数据，把整个文件中的内容进行一次性读取，返回一个列表，每一行的数据为一个元素。read(size)方法：主要用于读取文本和二进制文件，size表示读取数据长度，若不指定则全部读取。：追加和读取模式，可以读取和写入文件，如果文件不存在则创建新文件。：写入和读取模式，会清空文件内容，如果文件不存在则创建新文件。：读写模式，可以读取和写入文件，但文件必须存在。：以二进制模式写入和读取文件。：以二进制模式追加和读取文件。：以二进制模式读取文件。：以二进制模式写入文件。

2024-12-06 22:47:47 424

2402_85573962的博客