HDFS:NameNode的Proxy该怎样做

本文探讨了如何在HDFS中实现文件订阅功能,通过在NameNode端引入代理层,拦截并处理用户对文件的操作请求,进而实现实时通知订阅方文件变更。此功能为HDFS增加了一项关键特性,有助于提升数据管理和监控效率。
[size=medium]
在上篇[url=http://langyu.iteye.com/blog/1165292]blog[/url]中提到了HDFS的功能扩展点:Service plugin,它存在于NameNode和DataNode中。HDFS赋予它们可以操作这两个大对象的能力,这也完全提供我们在HDFS上进行开发的机会。这些开发可以是对HDFS现有功能的补充与完善,也可以是基于HDFS之上的扩展。但server plugin可以知道当前用户正在操作哪些文件么?不知道

现在我们有这样的需求:需要HDFS提供file notification - 也就是订阅方可以在HDFS上订阅监控某个文件或目录,如果文件或目录有更改,订阅方可以及时得到来自HDFS的通知。类似的功能需求在大部分应用系统都会支持,所以我们也会试着来完善HDFS的这个功能。

所有与文件相关的操作都是来自client,这些操作通过NameNode提供的RPC接口进行数据处理。我们最先应该想到的是在哪里可以获得所有与client交互的请求呢?client端显然不现实:1. 它是临时的,不能长期提供服务; 2. 某个文件可被多个client操作,不能完全拦截用户操作。除client之外,NameNode肯定是可以完成需求的,但怎样修改是改动少,最稳妥的方式呢?我想到了NameNode端的RPC server,它持有NameNode instance,然后在每次RPC请求到达时,根据这个instance做方法调用,在这里我们就可以偷梁换柱,用我们想要的代理层来替代真实的NameNode,既可以做正常的方法调用转发,也可以实现我们的需求。[/size]

[img]http://dl.iteye.com/upload/attachment/549402/4683d703-ea85-3875-9d56-1c59b2cb0fa4.jpg[/img]

[size=medium]
在RPC server与NameNode之间加入这样一层“锲子”,它静态代理着所有对NameNode的请求(当然也有从DataNode来的请求,不过我们不处理它,因为我们想要的只要与HDFS文件或目录相关的操作),然后在背后把请求的参数拦截下来,做异步处理,尽量不要影响NameNode的处理效率。

在NameNode中加入这个Proxy,RPC server就只会认为它是NameNode[/size]

//NameNode.java
NameNodeProxy nnProxy = new NameNodeProxy(this);
this.server = RPC.getServer(NamenodeProtocols.class, nnProxy,
socAddr.getHostName(), socAddr.getPort(),
handlerCount, false, conf,
namesystem.getDelegationTokenSecretManager());



[size=medium]
对于用户的这些文件操作请求,我们可以对它这样做。把请求代理到真正的NameNode,拦截请求参数,与订阅信息比对,如果匹配就通知订阅方[/size]

//NameNodeProxy.java
public void create(String src,
FsPermission masked,
String clientName,
EnumSetWritable<CreateFlag> flag,
boolean createParent,
short replication,
long blockSize) throws IOException {

nameNode.create(src, masked, clientName, flag, createParent, replication, blockSize);

putRequestToQueue(src, "create");
}

private List<Operation> operationQueue;

private void putRequestToQueue(String src, String cmd) {
Operation op = new Operation(src, cmd);
operationQueue.add(op);
}


[size=medium]
这层代理同时也是一个契机,为我们分析用户操作打开一扇窗。你想分析下当前HDFS中哪些目录或哪些文件是热点文件/目录,那么你知道怎么做的。

就简单说到这吧,上述的HDFS版本是0.21,用的代码是伪代码。大家有任何想法,欢迎提出,谢谢![/size]
[root@hadoop01 hadoop-2.7.6]# hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.6.jar wordcount wcinput2/ wcoutput2 25/09/07 12:58:08 INFO client.RMProxy: Connecting to ResourceManager at hadoop01/192.168.10.131:8032 25/09/07 12:58:09 INFO input.FileInputFormat: Total input paths to process : 0 25/09/07 12:58:09 INFO mapreduce.JobSubmitter: number of splits:0 25/09/07 12:58:10 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1757220240312_0003 25/09/07 12:58:10 INFO impl.YarnClientImpl: Submitted application application_1757220240312_0003 25/09/07 12:58:10 INFO mapreduce.Job: The url to track the job: http://hadoop01:8088/proxy/application_1757220240312_0003/ 25/09/07 12:58:10 INFO mapreduce.Job: Running job: job_1757220240312_0003 25/09/07 12:58:17 INFO mapreduce.Job: Job job_1757220240312_0003 running in uber mode : true 25/09/07 12:58:17 INFO mapreduce.Job: map 0% reduce 100% 25/09/07 12:58:19 INFO mapreduce.Job: Job job_1757220240312_0003 completed successfully 25/09/07 12:58:19 INFO mapreduce.Job: Counters: 40 File System Counters FILE: Number of bytes read=0 FILE: Number of bytes written=0 FILE: Number of read operations=0 FILE: Number of large read operations=0 FILE: Number of write operations=0 HDFS: Number of bytes read=10 HDFS: Number of bytes written=130781 HDFS: Number of read operations=17 HDFS: Number of large read operations=0 HDFS: Number of write operations=7 Job Counters Launched reduce tasks=1 Total time spent by all maps in occupied slots (ms)=0 Total time spent by all reduces in occupied slots (ms)=1315 TOTAL_LAUNCHED_UBERTASKS=1 NUM_UBER_SUBREDUCES=1 Total time spent by all reduce tasks (ms)=1315 Total vcore-milliseconds taken by all reduce tasks=1315 Total megabyte-milliseconds taken by all reduce tasks=1346560 Map-Reduce Framework Combine input records=0 Combine output records=0 Reduce input groups=0 Reduce shuffle bytes=0 Reduce input records=0 Reduce output records=0 Spilled Records=0 Shuffled Maps =0 Failed Shuffles=0 Merged Map outputs=0 GC time elapsed (ms)=8 CPU time spent (ms)=640 Physical memory (bytes) snapshot=331374592 Virtual memory (bytes) snapshot=3107405824 Total committed heap usage (bytes)=177209344 Shuffle Errors BAD_ID=0 CONNECTION=0 IO_ERROR=0 WRONG_LENGTH=0 WRONG_MAP=0 WRONG_REDUCE=0 File Output Format Counters Bytes Written=308 [root@hadoop01 hadoop-2.7.6]# ll wcoutput2/ ls: 无法访问wcoutput2/: 没有那个文件或目录
最新发布
09-08
Hadoop 2.7.6运行WordCount程序后结果文件 `wcoutput2` 不存在,可能由多种原因导致,以下是相应的解决办法: #### 输入路径问题 若输入路径不存在,程序无法正常运行,也就不会生成结果文件。可使用以下命令检查输入路径是否存在: ```bash hdfs dfs -ls hdfs://hadoop01:8020/user/root/wcinput2 ``` 若输入路径不存在,需创建输入目录并上传文件: ```bash hdfs dfs -mkdir -p hdfs://hadoop01:8020/user/root/wcinput2 hdfs dfs -put /path/to/local/file hdfs://hadoop01:8020/user/root/wcinput2/ ``` #### 输出路径已存在 Hadoop不允许覆盖已存在的输出路径。运行程序前,可使用以下命令检查输出路径是否存在,若存在则删除: ```bash hdfs dfs -ls hdfs://hadoop01:8020/user/root/wcoutput2 hdfs dfs -rm -r hdfs://hadoop01:8020/user/root/wcoutput2 ``` #### 程序运行失败 程序运行过程中可能因各种错误而失败,可查看程序运行日志来排查问题: ```bash yarn logs -applicationId <application_id> ``` 其中 `<application_id>` 可在程序运行时的日志中找到。 #### HDFS服务问题 确保HDFS服务正常运行,可使用以下命令检查HDFSNameNode和DataNode服务状态: ```bash hdfs dfsadmin -report ``` 若服务未正常运行,需启动或重启HDFS服务。 #### 重新运行程序 在确保输入路径存在、输出路径不存在且HDFS服务正常后,重新运行WordCount程序: ```bash hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.6.jar wordcount hdfs://hadoop01:8020/user/root/wcinput2 hdfs://hadoop01:8020/user/root/wcoutput2 ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值