弦之森-优快云博客

原创十八、本地配置Hive

在前面，使用的root用户，但是启动集群时，需要使用到Hadoop用户，所以这里我们需要将/export/server/路径下的hive 和apache-hive-3.1.3-bin的用户和用户组划给Hadoop，以便我们后序的使用。如果初始化成功，那么再次进入MySQL，我们可以在MySQL的hive库中看见274张新建的元数据的表。切换到Hadoop用户创建logs文件夹。需要注意，此处应该将用户切换为Hadoop。注意，需要提前开启hsfs和yarn集群。需要注意，此处应该切换到Hadoop用户。

2023-12-23 14:53:42 1106

原创十七、如何将MapReduce程序提交到YARN运行

对于这些Hadoop内置的程序，他们都存储在hadoop-mapreduce-examples-3.3.6.jar中，如wordcount单词计数程序、pi求圆周率程序。执行完成后，查看some文件夹，可以看到some文件夹中存在两个子文件，第一个文件的文件名的最后一个单词，代表了本次程序运行是否成功，第二个文件存放着程序运行之后的结果。此处需要注意，对于有返回值的程序，需要指定程序参数。需要确保输出的文件夹不存在，否则会报错。

2023-12-17 00:02:00 883

原创十六、YARN和MapReduce配置

已经配置好Hadoop集群。配置内容：（2）修改mapred-site.xml配置文件yarn（1）修改yarn-env.sh文件（2）修改yarn-site.xml文件分发配置文件（2）执行结果展示、打开本地浏览器，输入node1:8088，即可打开本地YARN的Web-UI页面。

2023-12-15 23:25:38 701

原创十五、YARN辅助架构

对于YARN架构来讲，除了ResourceManager集群资源总管家、NodeManager单机资源管家两个核心角色外，还可以搭配两个辅助角色使得YARN架构的运行更加稳定、更加高效。辅助角色：~代理服务器（ProxyServer）~历史服务器（JobHistoryServer）

2023-12-15 22:58:08 534

原创十四、YARN核心架构

ResourceManager：整个集群的资源调度者，负责协调各个程序所需要的资源。NodeManager：单个服务器的资源调度者，负责调整单个服务器上的资源供给应用程序使用。在这里，我们可以将ResourceManager理解为一个项目的总经理，将NodeManager理解为每一个模块的负责人。在2(2)中，我们提到，如果某个程序需要申请12G的内存空间，那个它就会向ResourceManager提出申请，ResourceManager收到申请之后，会向每个NodeMana

2023-12-15 20:48:11 435

原创十三、YARN资源分配调用

在Hadoop文件系统中，YARN作为Hadoop系统的第三大组件，其中，第二大组件MapReduce组件是基于YARN运行的，即没有YARN无法运行MapReduce程序，所以需要同时学习YARN。资源调度，所谓资源调度，就是如下：如何理解资源调度？举个例子，在一个一万平米的场地上，会有许多人在这里撑帐篷。在无人管理的情况下，大家随意撑开帐篷，可能最多撑50个帐篷，但如果有人对这个场地进行分配，可能会撑80个帐篷。这就是资源调度。

2023-12-12 23:15:00 394

原创十二、MapReduce概述

MapReduce是“分散——>汇总”模式的分布式计算框架，可供开发人员进行相应计算~Map~Reduce其中，Map功能接口提供了“分散”的功能，由服务器分布式对数据进行处理。Reduce功能接口提供了“汇总(聚合)”的功能，将分布式的处理结果汇总统计。用户如需使用MapReduce框架完成自定义需求的程序开发，只需要使用Java、python等编程语言，实现Map Reduce功能接口即可。将任务分解为“分散”——>“任务”——>“汇总”。在这里，我们一共

2023-12-08 17:40:07 412

原创十一、了解分布式计算

顾名思义，分布式计算，即以分布式的形式完成数据的统计，得到需要的结果。分布式数据计算，顾名思义，就是“以多取胜”，如果一个问题使用一台计算机计算需要耗时1天，那我们就是用几百个数据节点来计算。在计算和处理数据时，我们为什么要使用分布式计算，不能用“计算器”来计算吗？其实，使用什么方式来处理数据，并不是由我们决定的，是由数据本身决定的。将一个数据分配给许多服务器，每一个服务器分配到一部分的数据，当它们将数据处理完成，将它们各自处理的数据结果向其中一台服务器进行汇

2023-12-08 17:06:07 783

原创十、数据读/写流程

~客户端发送请求~NameNode做判断，是否具有权限，空间是否充足~返回地址，告诉客户端一个datanode，~向指定的datanode发送数据包，副本的复制和备份如何处理？被写入的DataNode同时完成数据副本的复制工作，将其接收的数据分发给其它DataNode，DataNode之间完成本分~客户端告诉NameNode工作结束，NameNode开始记录元数据，即工作文档。 NameNode不接受数据，它只负责审批和记录元数据 DataNode

2023-12-08 16:29:44 448

原创九、hdfs中Namenode元数据处理

在hdfs文件系统中，用户的每一次操作，都会对文件系统产生响应的影响，那么谁来记录这些影响呢？在hdfs文件系统中，edits文件记录了hdfs中的每一次操作，以及本次操作影响的文件其对应的block。但于此同时，会产生一个问题，那就是随着时间的推移，hdfs文件系统中的edits文件会越来越大，这是hdfs文件系统会将edits文件进行切分处理，以避免个别edits文件过大现象。那么，是那个用户来统筹和操作edits文件呢？答案是Namenode用户。

2023-11-29 22:30:10 520

原创八、hdfs文件系统副本块数量的配置

【代码】八、hdfs文件系统副本块数量的配置。

2023-11-29 21:39:53 791

原创二、爬虫-爬取肯德基在北京的店铺地址

针对这个案例，现在对爬虫的基础使用做总结如下：1、算法框架(1)设定传入参数~url:当前整个页面的url:当前页面的网址当前页面某个局部的url:打开检查~data:需要爬取数据的关键字，即搜索内容~param:需要获取哪些(类型)的数据，即数据类型~headers:UA伪装(2)得到get/post请求响应根据”检查“结果进行判断:get请求:response=requests.get(url=**,data=**,param=**,headers=**)

2023-11-22 23:07:53 1847

原创一、爬虫-爬取豆瓣电影案例

你需要一个pycharm和requests第三方库，在安装完成之后即可继续浏览。

2023-11-22 22:11:12 1283 1

原创七、HDFS文件系统的存储原理

之所以把总结放在文件开头，是为了让读者对这篇文章有更好的理解，（其实是因为我比较懒……）对于整个HDFS文件系统的存储原理，我们可以总结为一句话，那就是：分块+备份。

2023-11-21 23:57:35 240

原创六、Big Data Tools安装

在Jetbrains的任意一款产品中，均可安装Big Data Tools这个插件。

2023-11-21 23:29:01 647

原创五、hdfs常见权限问题

如果想使用root用户对hdfs文件系统进行操作，就需要使用Hadoop用户调整root用户的权限，将root用户放入supergroup这个组。在Hadoop文件系统中，Hadoop用户相当于Linux系统中的root用户，是最高级别用户。没有使用Hadoop用户对hdfs文件系统进行操作。

2023-11-19 10:25:43 373

原创四、hdfs文件系统基础操作-保姆级教程

其实hdfs作为分布式存储的文件系统，其构成和Linux文件系统构成差不多一样，均是以“/”作为根目录的组织形式。在学习hdfs文件系统基础操作之后，你会发现hdfs文件系统的操作和Linux文件系统的操作十分相似，两者之间为数不多的区别就是hdfs文件系统在使用命令名时，需要在命令名前加上“-”。

2023-11-18 13:25:24 579

原创三、hadoop配置（保姆级别教程）

在各种配置文件中，我们都是以root用户进行操作的，普通用户hadoop并没有操作权限，现在我们需要对普通用户hadoop进行授权。配置hadoop-env.sh，这个文件作用主要是Hadoop运行的环境变量。在确保所用node都给Hadoop用户进行授权之后，格式化整个文件系统。在node2、node3上构建软连接。gz上传文件，解压文件，创建软连接。配置core-site。修改hdfs-site.xml文件。修改workers文件。创建nn、dn文件夹。授权hadoop用户。

2023-11-06 20:02:54 849

原创二、Hadoop分布式系统基础架构

分布式体系中，会存在众多服务器，会造成混乱等情况。那如何让众多服务器一起工作，高效且不出现问题呢？

2023-11-05 23:32:58 900 1

原创一、Hadoop初始化配置(final+ubuntu保姆级教程)

设置-》网络-》点击-》将ipv4调整为手动-》修改地址、子网掩码、网关、dns。

2023-11-04 00:58:41 1234

原创四十三、【进阶】前缀索引

简单点说，前缀索引就是当索引字段类型较大时，有时候需要索引很长的字符串，查询时，会浪费更大的空间，此时可以只对该索引的一部分前缀建立索引，可以大大的节省空间。前缀索引一般配合选择度进行使用，选择度=（非重复元素的总数）/（该列元素的总数），选择度等于1时，代表该字段下无重复元素，选择度始终小于等于1。

2023-11-01 20:52:50 173

原创 1、Flink基础概念

（1）、数据流上的有状态计算（2）、框架和分布式处理引擎，用于对无界和有界数据流进行有状态计算。（3）、事件驱动型应用，有数据流就进行处理，无数据流就不进行处理，就像挤牙膏一样。（4）、无界数据流&&有界数据流：其中，无界数据流就相当于水龙头，流的开始就是打开水龙头，但原则上，只要不关闭水龙头，水就会一直流下去，所以没有定义流的结束。有界数据流，相当于给一个水桶中装满水，水桶底部存在一个小孔，流的开始就是水桶滴下第一滴水，流的结束就是滴下最后一滴水。

2023-11-01 09:36:56 532

原创四十二、【进阶】覆盖索引

当使用二级索引name字段查询时，先走辅助索引，查到name字段对应的id值，按照执行规则来说，应该根据得到的id值，去聚集索引中查询数据，但因为需要输出的字段为“id和name”，而现在已经得到了“id和name”字段的信息，所以不需要回表查询，这就是所谓的覆盖索引。由于MySQL的存储结构是B+树，那么当进行主键索引查询时，只需要查询依次表，即可输出索要查询的内容。先走二级索引去查询，拿到查询之后的结果，根据拿到的结果去聚集索引中加载数据，这就加回表查询。对于上述两种查询方式，使用*查询性能比较低。

2023-10-31 20:58:13 122

原创四十一、【进阶】索引使用SQL提示

在使用MySQL时，当一个字段参在于多个索引中时，默认情况下，MySQL会自动选择一个索引，但我们可以指定索引吗？可以忽略某一种索引吗？答案是可以的。前提：profession字段已经存在于联合索引之中，且为联合索引的第一个字段。

2023-10-30 21:45:35 353 1

原创四十、【进阶】索引失效情况2

在使用索引查询时，如果使用了or，会出现以下情况：（情况一）or左边是索引查询，or右边不是索引查询结果：索引查询失效（情况二）or左边不是索引查询，or右边是索引查询结果：索引查询失效（情况三）or左边是索引查询，or右边也是索引查询结果：索引拆线呢生效（举例）：（解决方案）：我们只需要对非索引的字段，建立索引即可。

2023-10-29 16:55:05 125

原创三十九、【进阶】MySQL索引失效情况1

phone字段，存在一个单列索引。

2023-10-29 13:19:25 166

原创三十八、【进阶】最左前缀法则

最左前缀法则，如果索引了多列(联合索引)，要遵守最左前缀法则，最左前缀法则是致，查询从索引的最左列开始，并且不跳过索引中的列。如果跳过某一列，索引将部分失效(该索引后面的字段索引全部失效)。

2023-10-28 22:17:41 172

原创三十七、【进阶】验证索引的效率

创建一张表，该表中有一千万条数据，名为tb_sku；

2023-10-27 23:35:39 138

原创 Linux系统下配置王爽汇编语言环境

该语句的作用主要是安装dosbox。

2023-10-26 22:11:16 998 1

原创三十七、【进阶】SQL的explain

在使用explain关键字时，只需要在所执行语句前加上explain即可。

2023-10-22 11:24:56 652 2

原创三十六、【进阶】show profiles分析

默认情况下，MySQL数据库的profiles是关闭的，我们需要手动将其打开。可以帮助清楚的展现，每一条SQL语句的执行耗时，以及时间都耗费到哪里去了。通过set语句，将profiling参数设置为1，即开启。4、使用show profiles;（2）查询某一条语句在各个阶段的耗时。2、查看是否支持profiles。3、查询profiles是否打开。（2）打开profiles。（1）查询语句的执行时间。

2023-10-22 10:47:39 221

原创三十五、【进阶】MySQL性能查看

【代码】三十五、【进阶】MySQL性能查看。

2023-10-14 11:09:11 263

原创三十四、【进阶】MySQL索引的操作

唯一索引与普通索引不同的是，索引列的数值必须唯一，但允许有空值null；唯一索引与主键索引不同的是，主键索引不允许出现空值null，唯一索引允许出现空值null；

2023-10-14 10:49:10 111

原创三十三、【进阶】索引的分类

主键索引、唯一索引、常规索引、全文索引。

2023-10-09 23:35:55 240

原创三十二、【进阶】hash索引结构

hash索引，就是采用一定的hash算法，将键值换算成新的hash值，映射到对应的槽位上，然后存储在hash表中。

2023-10-08 23:01:55 658

原创三十一、【进阶】B+树的演变过程

（1）介绍：B+树也属于B树，是B树的变种（2）特点：所有的数据都位于叶子节点上，叶子节点上的所有元素形成了一个单项链表。

2023-10-07 19:11:31 511

原创三十、【进阶】B树的演变过程

B-Tree树最大度数为5，代表每一个节点最多存储4个key(每个节点最多存储4个数据)，5个指针(可以指向5个子节点)。

2023-10-06 11:12:26 341

原创二十九、【进阶】MySQL索引的概述和索引查询

无索引查询：在查询信息时，比如查询年龄age=45的员工，系统会遍历字段为age的列，在找到age=45的员工后，依旧会向下扫描，直到表末，因此无索引查询被称为全表扫描。索引查询：先建立树，取根节点age=36，将age<36的节点，放在36的左边，age>36的节点，放在36的右边，以此类推。在查询age=45时，只需要查询三次，所经过的节点数依次为age=36，age=48，age=45。

2023-10-05 10:26:07 102

原创二十八、InnoDB、MyISAM、Memory三个存储引擎的区别

http://t.csdnimg.cn/MZp5mhttp://t.csdnimg.cn/MZp5m

2023-10-02 20:21:19 115

原创二十七、[进阶]MySQL默认存储引擎InnoDB的简单介绍

引擎，就是发动机，例如火车和飞机的引擎，不同的引擎有不同的应用场景，每个引擎之间没有好坏之分。存储引擎是基于表的，而不是基于库的 # 也就意味着一个数据库下的多张表，可能具有不同的存储引擎。

2023-10-01 18:52:15 271

二、爬虫-爬取肯德基在北京的店铺地址

1、爬虫-爬取豆瓣电影案例

空空如也