
hadoop
文章平均质量分 60
zju小新
github地址:https://github.com/liumingming123/ 欢迎大家订阅
展开
-
使用hdfsclient遇到的kerberos解决方法
这几天忙着测试批量文件上传通过hdfsclient上传hdfs上,刚到第一步就卡住了,遇到了所有程序员几乎都不可避免遇到的问题那就是认证问题,这里我的集群的hdfs连接要认证kerberos,kerberos我就不加介绍了,可以去别的博客上看。当时我是按照跟别的博客一样的写法:上传本地文件到hdfs上: Configuration原创 2017-06-23 14:23:04 · 12986 阅读 · 0 评论 -
hadoop中map分片信息的源码分析
之前大家对于hadoop中map输入的分片不是很了解,直接认为map输入的分片数是由文件的个数和是否大于block_size来决定map的个数,这样是不准确的,的确在默认的情况下是这样的,但是实际优化过程中,并不是文件越多就起的map就越多,因为小文件太多的话,这样处理会影响系统效率,当然大文件的切分也不一定是按照block_size来切分,原创 2017-08-06 18:59:30 · 994 阅读 · 0 评论 -
关于mapreduce读取文件分片会不会断行
大家在接触mapreduce时,对于一个文件要分片,在分片末尾会不会有一条记录被拆开,从而导致map端在输入的时候,会不会有一行记录是不完整的疑惑原创 2017-08-06 00:03:10 · 2422 阅读 · 2 评论 -
IDEA远程调试mapreduce程序
之前很多人跑mapreduce任务只知道在在本地打成jar,提交到hadoop集群上去跑任务,如果出现错误往往很难定位错误,所以远程debug是开发中不可或缺的技能。通常大家都是在本地写好mapreduce任务,希望能在window环境下运行。原创 2017-07-23 21:09:26 · 5944 阅读 · 1 评论 -
关于sqoop的一些命令
以前用的一些sqoop的常用命令一直容易忘,今天整理了一些实例供大家参考。原创 2017-07-22 12:04:16 · 458 阅读 · 0 评论 -
Flume整合mysql碰到的自定义source表名问题
flume与mysql整合的自定义source的解决方法原创 2017-07-09 18:11:00 · 1242 阅读 · 0 评论 -
关于配置flume-ng负载均衡
在实际项目中,为了减轻一次性向hdfs上写数据,往往采用分层写入的功能,以减少负载原创 2017-07-21 15:46:12 · 1028 阅读 · 0 评论 -
hadoop中namenode HA起不了的问题解决
原先的自己的namenode HA的机器坏了,我就新加了一台机器作为namenodeHA,改了一些配置,还有配了一下免登陆,之后重启了一下集群,发现nn的HA没有起来原创 2017-07-16 11:19:21 · 2504 阅读 · 1 评论 -
storm supervisor报[ERROR] Error when processing event的解决方法
今天在准备启动strom服务的,nimbus启动成功,但是起supervisor的时候,没有起来,命令是: nohup ./strom supervisor 1>/dev/null 2>&1 &,但是jps没有supervisor进程,,strom UI上也没有supervisor的信息,查看supervisor的日志原创 2017-07-14 10:01:38 · 1881 阅读 · 0 评论 -
HDFS工作原理
深入理解一个技术的工作机制是灵活运用和快速解决问题的根本方法,也是唯一途径。对于HDFS来说除了要明白它的应用场景和用法以及通用分布式架构之外更重要的是理解关键步骤的原理和实现细节。在看这篇博文之前需要对HDFS以及分布式系统有一些了解。请参考这篇博客。转载 2017-08-15 21:11:33 · 589 阅读 · 0 评论