在写mapreduce时,发现一个问题:
hadoop的map函数的key一般是输入文件的行号,于是乎就希望把这个当作一个unique id来用,但是确出了很严重的问题,在分布式集群中,不同map任务中可能会有很多相同的行号,千万不能把这个key当作id.
本文讨论了Hadoop MapReduce中map函数key的特点,并指出将其误作为唯一标识符可能导致的问题,尤其是在分布式环境中。
在写mapreduce时,发现一个问题:
hadoop的map函数的key一般是输入文件的行号,于是乎就希望把这个当作一个unique id来用,但是确出了很严重的问题,在分布式集群中,不同map任务中可能会有很多相同的行号,千万不能把这个key当作id.
385
303

被折叠的 条评论
为什么被折叠?