
hadoop
逍锅锅_
这个作者很懒,什么都没留下…
展开
-
(hadoop运维 二) 避免hadoop节点使用swap分区
Linux系统中当内存使用到一定程度后会使用swap分区,这是由/proc/sys/vm/swappiness文件中的vm.swappiness 参数进行控制的,linux默认vm.swappiness=60但是对于hadoop集群来说,如果使用系统默认设置,会导致swap分区被频繁使用,集群会不断发出警告。所以在搭建cloudera-manager的时候,会建议调整vm.swappin原创 2017-11-16 16:41:43 · 3342 阅读 · 0 评论 -
(hadoop运维 一)cloudera-scm-agent dead
CDH集群中的某个的cloudera-scm-agent当掉之后,sever节点就无法收到从节点的报告信息,此时cloudera manager界面就会有好多报红。重启cloudera-scm-agent服务如果报错cloudera-scm-agent dead but pid file exists,那就 先ps -ef | grep cloudera-scm-agent,然后kill掉原创 2017-11-15 17:06:33 · 3074 阅读 · 0 评论 -
两个haoop集群之间迁移数据:
1、迁移之前需要把两个集群的所有节点都互通/etc/hosts文件(重要,包括各个数据节点)2、配置当前集群主节点到老集群各个节点的ssh免密登陆3、由于老集群是HDP2.7.1,新集群是cdh5.8.5,版本不同,不能用hdfs协议直接拷贝,需要用http协议即不能用:distcp hdfs://src:50070/foo /user**而要用:distcp hftp://src原创 2017-11-07 14:12:59 · 2867 阅读 · 0 评论 -
(hadoop运维 三) hadoop集群负载均衡
当hadoop集群中增加节点、删除节点或者某个节点磁盘占用率比较高的情况下,节点之间的存储就会不均衡,此时就需要对集群进行重新的负载均衡,在做负载均衡之前,首先要调整dfs.balance.bandwidthPerSec参数,该参数表示集群负载均衡的带宽,我的CDH集群中默认为10M/S,我一般将它设置为100M/S。集群默认的threshold=10。如果已经搭建了cloude-manage原创 2017-11-16 17:03:57 · 1732 阅读 · 0 评论 -
(hadoop运维四)cloudera manager安装hue
使用cloudera maneger安装hue服务时,建立数据库链接时报错,如下图所示解决办法为:1、查看cm server日志,显示报错:django.core.exceptions.ImproperlyConfigured: Error loading MySQLdb module: libmysqlclient_r.so.16: cannot open shared object...原创 2018-07-22 11:01:09 · 724 阅读 · 0 评论 -
hdfs block
我认为原因有如下:1.减少寻道时间,对于hdfs来讲,寻道是一个逻辑的概念,因为真正的寻道发生在磁盘,这里的寻道时间指的就是定位到块的时间。hdfs是存储大数据的,如果块设计的很小,一个文件就会由很多块组成,而HDFS上文件读写的最小单位是块,这样,寻找块的时间就会大大增加,降低得写效率。2.减少任务数,一个map或者一个reduce都是以一个块为单位处理,如果块很小的话,mapreduce任...原创 2019-04-16 15:57:20 · 944 阅读 · 0 评论 -
datanode下线和宕机
一、datanode宕机datanode宕机后,hdfs会将缺失的block根据副本因子数再复制一份,宕机的datanode恢复之后,该datanonde上多余的块不会立即删除,因为hdfs block数量有一个上线,一般会大于副本因子,只要block数量不超过上线,hdfs不会删除多余的block,除非手动出发balancer。二、datanode下线datanode下线过程中,由于需要快...原创 2019-04-18 19:28:08 · 2730 阅读 · 0 评论 -
HDFS客户端
HDFS目前提供了三种客户端接口:DistributeFileSystem、FsShell、DFSAdmin。DistributeFileSystem为用户提供了API,用于开发HDFS应用程序;FSShell工具使用户可以通过HDFS Shell命令执行常见的文件系统操作,例如创建文件、删除文件、创建目录等;DFSAdmin则向系统管理员提供了管理HDFS的工具,例如执行升级、管理安全模式等操...原创 2019-04-19 21:57:42 · 661 阅读 · 0 评论 -
HDFS文件读写操作
一、读操作读操作分为两部分:打开文件和读操作。1、打开文件客户端在代码中打开文件如下:FileSystem fileSystem = new DistributedFileSystem();fileSystem.open(new Path("/test"),bufferSize);此时调用了DistributedFileSystem的open()方法在DistributedFile...原创 2019-04-19 22:19:02 · 349 阅读 · 0 评论