
数据仓库
文章平均质量分 79
z754916067
这个作者很懒,什么都没留下…
展开
-
Hive 3.x|第十天|表的优化
目录小表Join大表步骤大表Join大表空 KEY 过滤空 key 转换SMB Join小表Join大表倾向把数据量小的表放在join的左边,可以使用map join让小的维度表先进内存,在map端完成join。实际测试发现:新版的 hive 已经对小表 JOIN 大表和大表 JOIN 小表进行了优化。小表放在左边和右边已经没有区别。步骤设置自动选择 Mapjoinset hive.auto.convert.join = true; 默认为 true大表小表的阈值设置(默认 25M 以原创 2022-05-17 16:56:49 · 393 阅读 · 0 评论 -
Hive 3.x|第十天|优化,调优
目录执行计划(Explain)查看语句的执行计划执行计划(Explain)EXPLAIN [EXTENDED | DEPENDENCY | AUTHORIZATION] query查看语句的执行计划原创 2022-05-17 11:07:02 · 133 阅读 · 0 评论 -
Hive 3.x|第九天|压缩和存储
目录Hadoop 压缩配置MR 支持的压缩编码压缩参数配置Map 输出阶段压缩步骤Reduce 输出阶段压缩步骤文件存储格式行存储列存储TextFile 格式Orc 格式Parquet 格式存储和压缩结合创建ZLIB 压缩的 ORC 存储方式创建SNAPPY 压缩的 ORC 存储方式创建SNAPPY 压缩的 parquet 存储方式存储方式和压缩总结Hadoop 压缩配置MR 支持的压缩编码压缩参数配置Map 输出阶段压缩开启 map 输出阶段压缩可以减少 job 中 map 和 Reduce原创 2022-05-16 10:19:28 · 396 阅读 · 0 评论 -
Hive 3.x|第八天|自定义函数
目录自定义函数类别UDF(User-Defined-Function)UDAF(User-Defined Aggregation Function)UDTF(User-Defined Table-Generating Functions)步骤自定义UDF函数需求创建一个 Maven 工程 Hive导入依赖创建一个类继承并实现抽象方法打成 jar包将 jar 包添加到 hive 的 classpath关联java class即可在 hql 中使用自定义的函数自定义 UDTF 函数需求代码打包自定义函数类别原创 2022-05-13 12:11:41 · 365 阅读 · 0 评论 -
Hive 3.x|第八天|DML函数
目录系统内置函数查看系统自带的函数显示自带的函数的用法详细显示自带的函数的用法常用内置函数空字段赋值拼接字符串行转列列转行窗口函数Rank系统内置函数查看系统自带的函数 show functions;显示自带的函数的用法desc function upper;详细显示自带的函数的用法desc function extended upper;常用内置函数空字段赋值NVL( value,default_value)。NVL:给值为 NULL 的数据赋值,它的功能是如果 value 为原创 2022-05-13 11:37:44 · 219 阅读 · 0 评论 -
Hive 3.x|第七天|分区表和分桶表
目录分区表实操增加分区删除分区查看分区表有多少分区查看分区表结构二级分区创建二级分区表加载数据到二级分区表中查询分区数据分区表和数据产生关联的方式动态分区开启动态分区参数设置实操分桶表创建分桶表导入数据到分桶表中查询分桶的数据分桶规则注意事项insert 方式将数据导入分桶表分区表分区表实际上就是对应一个 HDFS 文件系统上的独立的文件夹,该文件夹下是该分区所有的数据文件。Hive 中的分区就是分目录,把一个大的数据集根据业务需要分割成小的数据集。在查询时通过 WHERE 子句中的表达式选择查询原创 2022-05-12 16:52:23 · 230 阅读 · 0 评论 -
Hive 3.x|第六七天|DML数据操作
目录数据导入语法实操通过查询语句向表中插入数据查询语句中创建表并加载数据(As Select)创建表时通过 Location 指定加载数据路径Import 数据到指定 Hive 表中数据导出Insert 导出Hadoop 命令导出到本地Hive Shell 命令导出Export 导出到 HDFS 上清除表中数据(Truncate)数据导入语法load data [local] inpath '数据的 path' [overwrite] into table student [partition (p原创 2022-05-12 15:26:15 · 258 阅读 · 0 评论 -
Hive 3.x|第五天|DDL 数据定义
目录创建数据库创建数据库数据库在 HDFS 上的默认存储路径是/user/hive/warehouse/*.db避免要创建的数据库已经存在错误,增加 if not exists 判断。create database if not exists db_hive;指定数据库在 HDFS 上存放的位置create database db_hive2 location '/db_hive2.db';...原创 2022-05-09 16:41:52 · 397 阅读 · 0 评论 -
Hive 3.x|第五天|Hive数据类型
目录基本数据类型集合数据类型集合实操示例类型转化规则CAST 进行数据类型转换基本数据类型集合数据类型集合实操示例假设某表有如下一行,我们用 JSON 格式来表示其数据结构。在 Hive 下访问的格式为{ "name": "songsong", "friends": ["bingbing" , "lili"] , //列表 Array, "children": { //键值 Map, "xiao song": 18 , "xiaoxiao song": 19 }原创 2022-05-09 12:01:26 · 216 阅读 · 0 评论 -
Hive 3.x|第四天|Hive配置补充
目录常用交互命令不进入 hive 的交互窗口执行 sql 语句执行脚本中 sql 语句在 hive cli 命令窗口中查看 hdfs 文件系统查看在 hive 中输入的所有历史命令Hive 常见属性配置Hive 运行日志信息配置打印当前库和表头参数配置方式查看当前所有的配置信息1.配置文件方式2.命令行参数方式3.参数声明方式常用交互命令不进入 hive 的交互窗口执行 sql 语句-ebin/hive -e "select id from student;"执行脚本中 sql 语句-fto原创 2022-05-06 11:51:46 · 705 阅读 · 0 评论 -
Hive 3.x|第二三天|Hive安装
目录安装Hive1.解压Hive包安装Hive1.解压Hive包把 apache-hive-3.1.2-bin.tar.gz 上传到 linux 的/opt/software 目录下,再进行解压。原创 2022-05-05 11:26:05 · 223 阅读 · 0 评论 -
Hive 3.x|第一天|Hive基本概念介绍
目录Hive基本概念本质与Hadoop的关系优点缺点架构原理图Metastore用户接口:ClientHadoop驱动器:Driver运行机制Hive和数据库比较数据更新执行延迟数据规模Hive基本概念由Facebook开源用于解决海量结构化日志的数据统计工具。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。本质将HQL转化为MapReduce程序。与Hadoop的关系Hive处理的数据存储在HDFSHive分析数据底层的实现是Ma原创 2022-05-03 12:03:23 · 1361 阅读 · 0 评论 -
Hadoop 3.x|第十八天|Yarn框架(多队列,总结)
目录容量调度器多队列多队列的好处任务优先级重点容量调度器多队列初始的调度器默认就 1 个 default 队列,不能满足生产要求。可以按照业务模块:登录注册、购物车、下单、业务部门 1、业务部门 2多队列的好处避免写出写递归死循环代码,把所有资源全部耗尽。实现任务的降级使用,特殊时期保证重要的任务队列资源充足。任务优先级容量调度器,支持任务优先级的配置,在资源紧张时,优先级高的任务将优先获取资源。默认情况,Yarn 将所有任务的优先级限制为 0,若想使用任务的优先级功能,须开放该限制。原创 2022-05-02 16:54:51 · 941 阅读 · 0 评论 -
Hadoop 3.x|第十七天|Yarn框架(调度器,常用命令,生产环境配置参数)
作业调度器Hadoop作业调度器主要有三种:FIFO,容量(Capacity Scheduler)和公平(Fair Scheduler)。Hadoop3.1.3默认的资源调度器是Capacity SchedulerCDH框架默认调度器是Fair SchedulerFIFO先进先出调度器FIFO调度器(First In First Out):单队列,根据提交作业的先后顺序,先来先服务。一个job里可能包含多个MapTask和多个ReduceTask,把Job分配给服务器节点资源。容量调度器原创 2022-04-29 15:51:57 · 1446 阅读 · 0 评论 -
Hadoop 3.x|第十六天|Yarn框架(基础架构,工作机制,作业提交过程)
目录Yarn框架定义基础架构Yarn各组件的功能ResourceManagerNodeManagerApplicationMasterContainer示意图工作机制流程示意图Yarn框架定义Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。基础架构YARN主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成。Y原创 2022-04-25 12:01:24 · 1045 阅读 · 0 评论 -
Hadoop 3.x|第十五天|MapReduce框架原理(数据清洗ETL,MapReduce开发总结,Hadoop数据压缩)
目录数据清洗(ETL)定义MapReduce里的ETL案例:去除日志中字段个数小于等于 11 的日志MapReduce开发总结1.输入数据接口:InputFormat2.逻辑处理接口:Mapper3.Partitioner分区4.Comparable排序5.Combiner合并6.逻辑处理接口:Reducer7.输出数据接口:OutputFormatHadoop数据压缩优劣处原则MR支持的压缩编码压缩方式选择压缩位置选择输入端采用压缩Mapper输出采用压缩Reducer输出采用压缩数据清洗(ETL)定原创 2022-04-25 11:32:29 · 288 阅读 · 0 评论 -
Hadoop 3.x|第十四天|MapReduce框架原理(Join应用)
目录Reduce JoinMap端主要工作Reduce端主要工作Reduce Join案例实操需求分析:MapTask任务分析:ReduceTask任务TableBean序列化代码Mapper代码重写setup()初始化方法总代码Reducer代码Reduce join总结Map join使用场景优点具体办法:DistributedCacheMap join案例实操分析:Driver端分析:MapTask任务Driver代码Mapper代码Reduce JoinMap端主要工作为来自不同表或文件的ke原创 2022-04-24 16:38:48 · 1348 阅读 · 0 评论 -
Hadoop 3.x|第十三天|MapReduce框架原理(ReduceTask工作机制&并行度决定机制)
目录总结图阶段Copy阶段Sort阶段Reduce阶段ReduceTask 并行度决定机制设置注意事项总结图阶段Copy阶段Sort阶段Reduce阶段Copy阶段ReduceTask 从各个 MapTask 上远程拷贝一片数据,并针对某一片数据,如果其大小超过一定阈值,则写到磁盘上,否则直接放到内存中。Sort阶段在远程拷贝数据的同时,ReduceTask 启动了两个后台线程对内存和磁盘上的文件进行合并,以防止内存使用过多或磁盘上文件过多。按照 MapReduce 语义,用户编写原创 2022-04-22 19:08:18 · 350 阅读 · 0 评论 -
Hadoop 3.x|第十三天|MapReduce框架原理(MapTask工作机制)
目录工作阶段Read阶段Map阶段Collect收集阶段溢写阶段Merge阶段溢写阶段详情1.对key进行分区和快速排序2.写入out文件3.记录分区元数据Merge阶段详情生成文件合并过程优点工作阶段Read阶段Map阶段Collect阶段溢写阶段Merge阶段Read阶段首先划分完后提交切片,jar包和xml给Yarn,Yarn会开启一个MrAppMaster,由MrAppMaster开启MapTask。MapTask 通过InputFormat获得的RecordReader,从输原创 2022-04-22 18:06:50 · 1185 阅读 · 0 评论 -
Hadoop 3.x|第十二天|MapReduce框架原理(OutputFormat数据输出)
目录OutputFormat默认输出格式自定义OutputFormat自定义OutputFormat需求解决方案代码实现自定义RecordWriter类自定义OutputFormat类补充Driver类OutputFormat是MapReduce输出的基类,所有实现MapReduce输出都实现了OutputFormat接口。默认输出格式默认的输出格式是TextOutputFormat自定义OutputFormat想要输出数据到MySQL/HBase/Elasticsearch等存储框架中。自原创 2022-04-21 14:55:41 · 564 阅读 · 0 评论 -
Hadoop 3.x|第十二天|MapReduce框架原理(Shuffle机制里Combiner合并)
目录Combiner合并Combiner合并案例实操需求输入数据期望输出解决方案Combiner合并Combiner是MR程序中Mapper和Reducer之外的一种组件Combiner组件的父类就是ReducerCombiner和Reducer的区别在于运行的位置:Combiner是在每一个MapTask所在的节点运行,而Reducer是接收全局所有Mapper的输出结果。Combiner的意义就是对每一个MapTask的输出进行局部汇总。Combiner的输出kv应该能跟Reducer的输原创 2022-04-21 14:11:31 · 442 阅读 · 0 评论 -
LeetCode-SQL-1179.-重新格式化部门表(GROUP BY)
题目思路自己写了一版12个子查询…果不其然在第十个测试用例就炸了。SELECT uid as id, Jan_Revenue, Feb_Revenue, Mar_Revenue, Apr_Revenue, May_Revenue, Jun_Revenue, Jul_Revenue, Aug_Revenue, Sep_Revenue, Oct_Revenue, Nov_Revenue, Dec原创 2022-04-20 11:54:20 · 142 阅读 · 0 评论 -
Hadoop 3.x|第十一天|MapReduce框架原理(Shuffle机制里的WritableComparable排序)
目录排序操作默认排序MapTask阶段的排序ReduceTask阶段的排序部分排序全排序(慎用)辅助排序(现在已经不用了)二次排序WritableComparable 排序案例实操准备原理分析需求解决方法代码编写实现WritableComparable接口且重写compareTo方法重写Mapper类重写Reducer类在Driver里更改输入输出路径WritableComparable 排序案例实操(区内排序)准备需求解决方法代码编写增加自定义分区类在Driver里进行设置排序操作排序是MapRedu原创 2022-04-19 16:11:16 · 200 阅读 · 0 评论 -
Hadoop 3.x|第十一天|MapReduce框架原理(Shuffle机制里的Partition分区)
目录定义总图文字流程Partition分区默认分区自定义Partitioner步骤分区总结案例实操需求实现方法类的继承partition类实现代码在Driver驱动类里设置分区器和ReduceTask数量定义Map方法之后,Reduce 方法之前的数据处理过程称之为 Shuffle。总图文字流程从Map方法出来之后,数据首先打上分区的编号,再进入环形缓冲区(默认100M,左侧存索引,右侧存数据。到达80%进行反向溢写,提高利用率)溢写之前,对数据进行字典排序,对key的索引进行快排。然后进原创 2022-04-19 15:10:30 · 157 阅读 · 0 评论 -
Hadoop 3.x|第十天|MapReduce框架原理(InputFormat数据输入)
目录切片与 MapTask 并行度MapTask 并行度决定机制InputFormat如何切片计算切片大小的公式获取切片信息API总结:InputFormat切片机制TextInputFormat原理CombineTextInputFormat切片机制TextInputFormat缺点应用场景虚拟存储切片最大值设置切片机制虚拟存储过程切片过程代码作用:文件切片,提交Job切片与 MapTask 并行度MapTask的并行度决定 Map 阶段的任务处理并发度,进而影响到整个 Job 的处理速度。Map原创 2022-04-18 12:13:24 · 152 阅读 · 0 评论 -
Hadoop 3.x|第九天|序列化及案例代码编写
目录Hadoop序列化定义为什么需要序列化为什么不用Java的序列化源码序列化案例实操-流量统计需求输入数据输出数据分析各个阶段的KV自定义对象实现序列化接口的步骤创建FlowBean对象继承接口具体代码编写Mapper部分继承Mapper编写Reducer部分运行结果Hadoop序列化定义序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络传输。反序列化就是将收到字节序列(或其他数据传输协议)或者是磁盘的持久化数据,转换成内存中的对象。为什么需要序列化原创 2022-04-12 19:37:30 · 1553 阅读 · 0 评论 -
Hadoop 3.x|第八天|WordCount案例解析
目录需求分析操作过程MapperReducerDriver需求分析用处:在给定的文本文件中统计输出每一个单词出现的总次数操作:按照MapReduce编程规范,分别编写Mapper,Reducer,Driver操作过程Mapper将MapTask传给我们的文本根据空格将这一行切分成单词将单词输出为<单词,1>Reducer汇总各个key的个数输出该key的总次数Driver获取配置信息,获取job对象实例关联Mapper/Reducer业务类指定Mapper原创 2022-04-11 21:11:19 · 4551 阅读 · 0 评论 -
Hadoop 3.x|第七天|MapReduce概述
MapReduce定义MapReduce 是一个分布式运算程序的编程框架,是“基于 Hadoop 的数据分析应用”的核心框架。MapReduce 核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个 Hadoop 集群上。优点易于编程良好的扩展性高容错性适合 PB 级以上海量数据的离线处理缺点不擅长实时计算:无法像 MySQL 一样,在毫秒或者秒级内返回结果。不擅长 DAG(有向无环图)计算:多个应用程序存在依赖关系,后一个应用程序的输入为原创 2022-03-25 20:15:52 · 3292 阅读 · 2 评论 -
Hadoop 3.x|第七天|DataNode
数据块在DN上的存储方式一个数据块在 DataNode 上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。工作机制DataNode 启动后向 NameNode 注册,通过后,周期性(6 小时)的向NameNode 上报所有的块信息。心跳是每 3 秒一次,心跳返回结果带有 NameNode 给该 DataNode 的命令如复制块数据到另一台机器,或删除某个数据块。如果超过 10 分钟没有收到某个 DataNode 的心跳,则认为该节点原创 2022-03-25 19:13:43 · 2259 阅读 · 0 评论 -
Hadoop 3.x|第六天|NameNode和SecondaryNameNode
目录NameNode内存与磁盘数据存储位置fsImage和Edits的合并(引入2NN)流程fsImage和Edits的位置NN和2NN工作机制第一阶段:NN工作第二阶段:2NN工作Fsimage和Edits定义工作查看fsImage文件命令查看Edits文件命令检查点CheckPointNameNode内存与磁盘如果存储在内存,好处是计算快,坏处是可靠性差,一旦断电,元数据丢失,整个集群就无法工作。如果存储在磁盘,好处是可靠性高,坏处是计算慢,因为经常需要进行随机访问,还有响应客户请求,必然是效率原创 2022-03-24 17:48:35 · 1417 阅读 · 0 评论 -
Hadoop 3.x|第六天|HDFS的读写流程
目录写数据流程节点距离计算定义图解机架感知源码地址读数据流程写数据流程客户端向NameNode请求上传文件NameNode首先检查是否可以上传文件:检查权限和目录结构,即文件是否存在。然后NameNode响应可以上传文件客户端请求上传block,请求NameNode返回DataNode。NameNode返回DataNode的节点,表示用这几个节点存储数据。客户端和第一个DataNode请求建立传输通道,然后第一个DataNode同第二个建立通道,第二个和第三个建立通道。客户端开始往 dn1原创 2022-03-24 16:28:09 · 1330 阅读 · 0 评论 -
Hadoop 3.x|第五天|HDFS的API操作(2)
目录创建文件夹HDFS文件上传上传文件参数优先级HDFS文件下载文件更名或移动HDFS删除文件或目录HDFS查看文件详情HDFS文件和文件夹判断创建文件夹需要注意的是必须添加上@Test做测试才能让它运行起来。其次是重名的类名很多,需要找到org.apache.hadoop底下的类才能成功跑起来。public class HdfsClient { @Test public void mkdirTest() throws URISyntaxException, IOException,原创 2022-03-23 20:26:45 · 804 阅读 · 0 评论 -
Hadoop 3.x|第五天|HDFS的API操作(1)
目录安装windows依赖配置环境变量配置 Path 环境变量IDEA里创建Maven项目更改pom.xml里的配置信息安装windows依赖首先去官网下好对应版本的hadoop for windows依赖,然后修改环境变量。配置环境变量增加系统变量配置 Path 环境变量然后运行winutils.exe,没有报错说明安装依赖成功IDEA里创建Maven项目更改pom.xml里的配置信息pom.xml 就是 maven 的配置文件,用以描述项目的各种信息加入如下内容首先是hadoo原创 2022-03-23 15:53:26 · 1227 阅读 · 0 评论 -
Hadoop 3.x|第四天|HDFS的Shell操作
目录前言上传1.启动Hadoop集群2.创建文件夹3.从本地剪切到HDFS4.从本地拷贝文件到HDFS中5.追加一个文件到已经存在的文件末尾下载1.从HDFS拷贝到本地直接操作1.统计文件夹的大小信息2.设置 HDFS 中文件的副本数量前言hadoop fs xxx和hdfs dfs xxx是同样的命令上传1.启动Hadoop集群启动Hadoop集群sbin/start-dfs.shsbin/start-yarn.sh2.创建文件夹参数:-mkdirhadoop fs -mk原创 2022-03-22 18:26:36 · 372 阅读 · 0 评论 -
Hadoop 3.x|第四天|HDFS的定义
目录定义优点缺点组成NameNodeDataNode2NN客户端文件块大小原因(?)注意总结定义HDFS是一个文件系统,是分布式文件管理系统中的一种,适合一次写入,多次读出的场景。优点高容错性:自动保存多个副本,也可以自动恢复。适合处理大数据:能够处理规模达到GB TB甚至PB级别的数据。文件规模:能够处理百万规模以上的文件数量。性价比高:可以构建在廉价机器上,通过多副本机制,提高可靠性。缺点不适合低延时数据访问,比如毫秒级的存储数据,是做不到的。无法高效的对大量小文件进行存储:因为存原创 2022-03-22 18:03:29 · 697 阅读 · 0 评论 -
Hadoop 3.x|第三天|集群补充点
目录测试集群hadoop网页创建文件夹上传本地小文件上传本地大文件执行WordCount程序(内含修改mapred-site.xml)配置历史服务器修改mapred-site.xml启动历史服务器http://hadoop102:19888/jobhistory测试集群hadoop网页可以看到这里现在是没有文件的创建文件夹hadoop fs -mkdir /input此时看到已经创建出文件夹了上传本地小文件将word.txt上传到/input里hadoop fs -put /home/y原创 2022-03-20 21:42:28 · 560 阅读 · 0 评论 -
Hadoop 3.x|第二天|配置完全分布式运行模式(重点)
目录编写集群分发脚本xsyncscp安全拷贝在102上 将102的JDK拷贝到103在103上 将102的hadoop拷贝到103在103上 将102的所有拷贝到104rsync 远程同步在102中,同步102中的hadoop到103编写集群分发脚本xsync作用是把102上的JDK,hadoop都拷贝到103,104上scp安全拷贝scp 可以实现服务器与服务器之间的数据拷贝。在102上 将102的JDK拷贝到103scp -r /opt/module/jdk1.8.0_212 yjr@had原创 2022-03-19 21:28:10 · 677 阅读 · 0 评论 -
Hadoop 3.x|第二天|安装Hadoop
目录Hadoop102中安装Hadoop解压hadoop包添加环境变量Hadoop目录本地模式运行wordcountHadoop102中安装Hadoop解压hadoop包tar -zxvf hadoop-3.1.3.tar.gz -C /opt/module/添加环境变量sudo vim /etc/profile.d/my_env.sh添加#HADOOP_HOMEexport HADOOP_HOME=/opt/module/hadoop-3.1.3export PATH=$PATH:$原创 2022-03-19 16:37:49 · 473 阅读 · 0 评论 -
Hadoop 3.x|第二天|配置虚拟机
目录前言VMware安装操作系统安装配置VM网络win10网络配置服务器网络配置Xshell连接服务器模板虚拟机的搭建1. 创建软件库2. 关闭防火墙,关闭防火墙开机自启3. 让用户使用sudo命令时不要输入密码4. 卸载虚拟机自带的JDK克隆三台虚拟机克隆修改各个服务器的IP地址和主机名称在Hadoop102上安装JDK解压JDK配置环境变量前言还是不能用服务器,达不到集群的目的,还是自己用电脑当小白鼠吧。争取周末两天搞定。VMware安装操作系统安装配置VM网络打开虚拟网络编辑器点击原创 2022-03-19 16:25:21 · 1267 阅读 · 0 评论 -
Hadoop 3.x|第一天|搭建Hadoop环境
目录前言SCP命令删除???文件安装JDK安装Hadoop前言看的教程是用VM虚拟机然后建了四个虚拟环境做集群,但我不喜欢往自己电脑里面放虚拟机,而且内存也不大,就直接买了一个腾讯云的服务器,整伪集群算了,不知道会不会差别太大…因为是自己搞的伪集群,安装hadoop部分就不看视频了自己搞,但是版本都按照视频里的来。还好以前大数据课自己装过Hadoop。SCP命令上传文件:scp 文件位置 用户名@IP:位置删除???文件我的Xshell用rz命令老报错,甚至还上传了一些乱码文件在上面,有一个文原创 2022-03-16 18:24:57 · 2054 阅读 · 0 评论