- 博客(127)
- 收藏
- 关注
原创 十八、本地配置Hive
在前面,使用的root用户,但是启动集群时,需要使用到Hadoop用户,所以这里我们需要将/export/server/路径下的hive 和apache-hive-3.1.3-bin的用户和用户组划给Hadoop,以便我们后序的使用。如果初始化成功,那么再次进入MySQL,我们可以在MySQL的hive库中看见274张新建的元数据的表。切换到Hadoop用户创建logs文件夹。需要注意,此处应该将用户切换为Hadoop。注意,需要提前开启hsfs和yarn集群。需要注意,此处应该切换到Hadoop用户。
2023-12-23 14:53:42
1106
原创 十七、如何将MapReduce程序提交到YARN运行
对于这些Hadoop内置的程序,他们都存储在hadoop-mapreduce-examples-3.3.6.jar中,如wordcount单词计数程序、pi求圆周率程序。执行完成后,查看some文件夹,可以看到some文件夹中存在两个子文件,第一个文件的文件名的最后一个单词,代表了本次程序运行是否成功,第二个文件存放着程序运行之后的结果。此处需要注意,对于有返回值的程序,需要指定程序参数。需要确保输出的文件夹不存在,否则会报错。
2023-12-17 00:02:00
883
原创 十六、YARN和MapReduce配置
已经配置好Hadoop集群。配置内容:(2)修改mapred-site.xml配置文件yarn(1)修改yarn-env.sh文件(2)修改yarn-site.xml文件 分发配置文件(2)执行结果展示、 打开本地浏览器,输入node1:8088,即可打开本地YARN的Web-UI页面。
2023-12-15 23:25:38
701
原创 十五、YARN辅助架构
对于YARN架构来讲,除了ResourceManager集群资源总管家、NodeManager单机资源管家两个核心角色外,还可以搭配两个辅助角色使得YARN架构的运行更加稳定、更加高效。辅助角色:~代理服务器(ProxyServer)~历史服务器(JobHistoryServer)
2023-12-15 22:58:08
534
原创 十四、YARN核心架构
ResourceManager:整个集群的资源调度者,负责协调各个程序所需要的资源。NodeManager:单个服务器的资源调度者,负责调整单个服务器上的资源供给应用程序使用。 在这里,我们可以将ResourceManager理解为一个项目的总经理,将NodeManager理解为每一个模块的负责人。 在2(2)中,我们提到,如果某个程序需要申请12G的内存空间,那个它就会向ResourceManager提出申请,ResourceManager收到申请之后,会向每个NodeMana
2023-12-15 20:48:11
435
原创 十三、YARN资源分配调用
在Hadoop文件系统中,YARN作为Hadoop系统的第三大组件,其中,第二大组件MapReduce组件是基于YARN运行的,即没有YARN无法运行MapReduce程序,所以需要同时学习YARN。 资源调度,所谓资源调度,就是如下: 如何理解资源调度? 举个例子,在一个一万平米的场地上,会有许多人在这里撑帐篷。在无人管理的情况下,大家随意撑开帐篷,可能最多撑50个帐篷,但如果有人对这个场地进行分配,可能会撑80个帐篷。 这就是资源调度。
2023-12-12 23:15:00
394
原创 十二、MapReduce概述
MapReduce是“分散——>汇总”模式的分布式计算框架,可供开发人员进行相应计算~Map~Reduce其中,Map功能接口提供了“分散”的功能,由服务器分布式对数据进行处理。Reduce功能接口提供了“汇总(聚合)”的功能,将分布式的处理结果汇总统计。 用户如需使用MapReduce框架完成自定义需求的程序开发,只需要使用Java、python等编程语言,实现Map Reduce功能接口即可。 将任务分解为“分散”——>“任务”——>“汇总”。 在这里,我们一共
2023-12-08 17:40:07
412
原创 十一、了解分布式计算
顾名思义,分布式计算,即以分布式的形式完成数据的统计,得到需要的结果。 分布式数据计算,顾名思义,就是“以多取胜”,如果一个问题使用一台计算机计算需要耗时1天,那我们就是用几百个数据节点来计算。 在计算和处理数据时,我们为什么要使用分布式计算,不能用“计算器”来计算吗?其实,使用什么方式来处理数据,并不是由我们决定的,是由数据本身决定的。 将一个数据分配给许多服务器,每一个服务器分配到一部分的数据,当它们将数据处理完成,将它们各自处理的数据结果向其中一台服务器进行汇
2023-12-08 17:06:07
783
原创 十、数据读/写流程
~客户端发送请求~NameNode做判断,是否具有权限,空间是否充足~返回地址,告诉客户端一个datanode,~向指定的datanode发送数据包, 副本的复制和备份如何处理? 被写入的DataNode同时完成数据副本的复制工作,将其接收的数据分发给其它DataNode,DataNode之间完成本分~客户端告诉NameNode工作结束,NameNode开始记录元数据,即工作文档。 NameNode不接受数据,它只负责审批和记录元数据 DataNode
2023-12-08 16:29:44
448
原创 九、hdfs中Namenode元数据处理
在hdfs文件系统中,用户的每一次操作,都会对文件系统产生响应的影响,那么谁来记录这些影响呢?在hdfs文件系统中,edits文件记录了hdfs中的每一次操作,以及本次操作影响的文件其对应的block。但于此同时,会产生一个问题,那就是随着时间的推移,hdfs文件系统中的edits文件会越来越大,这是hdfs文件系统会将edits文件进行切分处理,以避免个别edits文件过大现象。那么,是那个用户来统筹和操作edits文件呢?答案是Namenode用户。
2023-11-29 22:30:10
520
原创 二、爬虫-爬取肯德基在北京的店铺地址
针对这个案例,现在对爬虫的基础使用做总结如下:1、算法框架(1)设定传入参数~url:当前整个页面的url:当前页面的网址当前页面某个局部的url:打开检查~data:需要爬取数据的关键字,即搜索内容~param:需要获取哪些(类型)的数据,即数据类型~headers:UA伪装(2)得到get/post请求响应根据”检查“结果进行判断:get请求:response=requests.get(url=**,data=**,param=**,headers=**)
2023-11-22 23:07:53
1847
原创 七、HDFS文件系统的存储原理
之所以把总结放在文件开头,是为了让读者对这篇文章有更好的理解,(其实是因为我比较懒……)对于整个HDFS文件系统的存储原理,我们可以总结为一句话,那就是:分块+备份。
2023-11-21 23:57:35
240
原创 五、hdfs常见权限问题
如果想使用root用户对hdfs文件系统进行操作,就需要使用Hadoop用户调整root用户的权限,将root用户放入supergroup这个组。在Hadoop文件系统中,Hadoop用户相当于Linux系统中的root用户,是最高级别用户。没有使用Hadoop用户对hdfs文件系统进行操作。
2023-11-19 10:25:43
373
原创 四、hdfs文件系统基础操作-保姆级教程
其实hdfs作为分布式存储的文件系统,其构成和Linux文件系统构成差不多一样,均是以“/”作为根目录的组织形式。在学习hdfs文件系统基础操作之后,你会发现hdfs文件系统的操作和Linux文件系统的操作十分相似,两者之间为数不多的区别就是hdfs文件系统在使用命令名时,需要在命令名前加上“-”。
2023-11-18 13:25:24
579
原创 三、hadoop配置(保姆级别教程)
在各种配置文件中,我们都是以root用户进行操作的,普通用户hadoop并没有操作权限,现在我们需要对普通用户hadoop进行授权。配置hadoop-env.sh,这个文件作用主要是Hadoop运行的环境变量。在确保所用node都给Hadoop用户进行授权之后,格式化整个文件系统。在node2、node3上构建软连接。gz上传文件,解压文件,创建软连接。配置core-site。修改hdfs-site.xml文件。修改workers文件。创建nn、dn文件夹。授权hadoop用户。
2023-11-06 20:02:54
849
原创 一、Hadoop初始化配置(final+ubuntu保姆级教程)
设置-》网络-》点击-》将ipv4调整为手动-》修改地址、子网掩码、网关、dns。
2023-11-04 00:58:41
1234
原创 四十三、【进阶】前缀索引
简单点说,前缀索引就是当索引字段类型较大时,有时候需要索引很长的字符串,查询时,会浪费更大的空间,此时可以只对该索引的一部分前缀建立索引,可以大大的节省空间。前缀索引一般配合选择度进行使用,选择度=(非重复元素的总数)/(该列元素的总数),选择度等于1时,代表该字段下无重复元素,选择度始终小于等于1。
2023-11-01 20:52:50
173
原创 1、Flink基础概念
(1)、数据流上的有状态计算(2)、框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。(3)、事件驱动型应用,有数据流就进行处理,无数据流就不进行处理,就像挤牙膏一样。(4)、无界数据流&&有界数据流:其中,无界数据流就相当于水龙头,流的开始就是打开水龙头,但原则上,只要不关闭水龙头,水就会一直流下去,所以没有定义流的结束。有界数据流,相当于给一个水桶中装满水,水桶底部存在一个小孔,流的开始就是水桶滴下第一滴水,流的结束就是滴下最后一滴水。
2023-11-01 09:36:56
532
原创 四十二、【进阶】覆盖索引
当使用二级索引name字段查询时,先走辅助索引,查到name字段对应的id值,按照执行规则来说,应该根据得到的id值,去聚集索引中查询数据,但因为需要输出的字段为“id和name”,而现在已经得到了“id和name”字段的信息,所以不需要回表查询,这就是所谓的覆盖索引。由于MySQL的存储结构是B+树,那么当进行主键索引查询时,只需要查询依次表,即可输出索要查询的内容。先走二级索引去查询, 拿到查询之后的结果,根据拿到的结果去聚集索引中加载数据,这就加回表查询。对于上述两种查询方式,使用*查询性能比较低。
2023-10-31 20:58:13
122
原创 四十一、【进阶】索引使用SQL提示
在使用MySQL时,当一个字段参在于多个索引中时,默认情况下,MySQL会自动选择一个索引,但我们可以指定索引吗?可以忽略某一种索引吗?答案是可以的。前提:profession字段已经存在于联合索引之中,且为联合索引的第一个字段。
2023-10-30 21:45:35
353
1
原创 四十、【进阶】索引失效情况2
在使用索引查询时,如果使用了or,会出现以下情况:(情况一)or左边是索引查询,or右边不是索引查询结果:索引查询失效(情况二)or左边不是索引查询,or右边是索引查询结果:索引查询失效(情况三)or左边是索引查询,or右边也是索引查询结果:索引拆线呢生效(举例):(解决方案):我们只需要对非索引的字段,建立索引即可。
2023-10-29 16:55:05
125
原创 三十八、【进阶】最左前缀法则
最左前缀法则,如果索引了多列(联合索引),要遵守最左前缀法则,最左前缀法则是致,查询从索引的最左列开始,并且不跳过索引中的列。如果跳过某一列,索引将部分失效(该索引后面的字段索引全部失效)。
2023-10-28 22:17:41
172
原创 三十六、【进阶】show profiles分析
默认情况下,MySQL数据库的profiles是关闭的,我们需要手动将其打开。可以帮助清楚的展现,每一条SQL语句的执行耗时,以及时间都耗费到哪里去了。通过set语句,将profiling参数设置为1,即开启。4、使用show profiles;(2)查询某一条语句在各个阶段的耗时。2、查看是否支持profiles。3、查询profiles是否打开。(2)打开profiles。(1)查询语句的执行时间。
2023-10-22 10:47:39
221
原创 三十四、【进阶】MySQL索引的操作
唯一索引与普通索引不同的是,索引列的数值必须唯一,但允许有空值null;唯一索引与主键索引不同的是,主键索引不允许出现空值null,唯一索引允许出现空值null;
2023-10-14 10:49:10
111
原创 三十二、【进阶】hash索引结构
hash索引,就是采用一定的hash算法,将键值换算成新的hash值,映射到对应的槽位上,然后存储在hash表中。
2023-10-08 23:01:55
658
原创 三十一、【进阶】B+树的演变过程
(1)介绍:B+树也属于B树,是B树的变种(2)特点:所有的数据都位于叶子节点上,叶子节点上的所有元素形成了一个单项链表。
2023-10-07 19:11:31
511
原创 三十、【进阶】B树的演变过程
B-Tree树最大度数为5,代表每一个节点最多存储4个key(每个节点最多存储4个数据),5个指针(可以指向5个子节点)。
2023-10-06 11:12:26
341
原创 二十九、【进阶】MySQL索引的概述和索引查询
无索引查询:在查询信息时,比如查询年龄age=45的员工,系统会遍历字段为age的列,在找到age=45的员工后,依旧会向下扫描,直到表末,因此无索引查询被称为全表扫描。索引查询:先建立树,取根节点age=36,将age<36的节点,放在36的左边,age>36的节点,放在36的右边,以此类推。在查询age=45时,只需要查询三次,所经过的节点数依次为age=36,age=48,age=45。
2023-10-05 10:26:07
102
原创 二十八、InnoDB、MyISAM、Memory三个存储引擎的区别
http://t.csdnimg.cn/MZp5mhttp://t.csdnimg.cn/MZp5m
2023-10-02 20:21:19
115
原创 二十七、[进阶]MySQL默认存储引擎InnoDB的简单介绍
引擎,就是发动机,例如火车和飞机的引擎,不同的引擎有不同的应用场景,每个引擎之间没有好坏之分。存储引擎是基于表的,而不是基于库的 # 也就意味着一个数据库下的多张表,可能具有不同的存储引擎。
2023-10-01 18:52:15
271
二、爬虫-爬取肯德基在北京的店铺地址
2023-11-22
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人