
hadoop
文章平均质量分 79
lambda-小张
代码人代码魂
展开
-
Hadoop技术与应用的习题
28、Region Server是Google的论文《Bigtable:一个分布式的结构化数据存储系统》中描述的BigTable的组成部分。17、Google的论文《Google File System》提到:还依赖一个高可用的、序列化的分布式锁服务组件,叫Chubby。B.GFS存储的文件都被分割成固定大小的块,每个块都会被复制到多个块服务器上(可靠性)。块的冗余度默认为3。3、GFS 存储的文件都被分割成固定大小的块,每个块都会复制到多个块服务器上(可靠性),请问默认冗余存储几份?原创 2023-11-23 21:36:15 · 2686 阅读 · 0 评论 -
使用kettle进行正则表达式组件日志分析
使用Kettle(Pentaho Data Integration)进行日志分析是一种常见的数据处理任务,特别是当你需要从大量的日志文件中提取和分析数据时。Kettle是一个强大的ETL工具,能够处理各种数据分析任务,包括日志分析。根据你的具体需求和日志的格式,你可以创建适合的转换来提取、转换和分析日志数据。原创 2023-10-24 19:35:16 · 3911 阅读 · 0 评论 -
Hadoop作业篇(一)
1. 以下哪一项不属于Hadoop可以运行的模式__C____。A. 单机(本地)模式B. 伪分布式模式C. 互联模式D. 分布式模式2. Hadoop的作者是下面哪一位___B___。A. Martin FowlerB. Doug cuttingC. Kent BeckD. Grace Hopper3. 下列哪个程序通常与 NameNode 在同一个节点启动___D__。A. TaskTrackerB. DataNodeC. SecondaryNameNodeD. Jobtracker4. HDFS 默认原创 2023-10-10 22:15:16 · 2643 阅读 · 0 评论 -
hdfs读取文件
HDFS的存储机制HDFS读数据过程 (下载)1)客户端向namenode请求下载文件,namenode通过查询元数据,找到文件块所在的datanode地址。2)挑选一台datanode(就近原则,然后随机)服务器,请求读取数据。3)datanode开始传输数据给客户端(从磁盘里面读取数据放入流,以packet为单位来做校验)。4)客户端以packet为单位接收,先在本地缓存,然后写入目标文件。HDFS写数据过程1)客户端向namenode请求上传文件,namenode检查目标文件是否原创 2022-05-07 20:53:26 · 1495 阅读 · 0 评论 -
Hadoop面试题
目录1、集群的最主要瓶颈2、Hadoop运行模式3、Hadoop生态圈的组件并做简要描述4、解释“hadoop”和“hadoop 生态系统”两个概念5、请列出正常工作的Hadoop集群中Hadoop都分别需要启动哪些进程,它们的作用分别是什么?6、谈谈Hadoop序列化和反序列化及自定义bean对象实现序列化?7、FileInputFormat切片机制8、在一个运行的Hadoop 任务中,什么是InputSplit?9、如何判定一个job的map和reduce的数量?原创 2022-04-18 19:05:09 · 1904 阅读 · 0 评论