
hadoop
文章平均质量分 68
重拾梦想
学习是一种信仰
展开
-
hadoop1集群环境搭建
一直以来都没有将自己的一些知识以文档的形式记录下来,时间长了容易淡忘。在此以文档的方式记录,当做归纳总结,方便阅读查看。 假设集群中已经安装好jdk和实现了集群间的免密码登http://blog.youkuaiyun.com/ls386239766/article/details/38169259 集群环境:hadoop0、hadoop1、hado原创 2014-07-27 14:09:02 · 570 阅读 · 1 评论 -
小文件解决方案
SequenceFile 通常对于“the small files problem”的回应会是:使用SequenceFile。这种方法是说,使用filename作为key,并且file contents作为value。实践中这种方式非常管用。回到10000个100KB的文件,可以写一个程序来将这些小文件写入到一个单独的 SequenceFile中去,然后就可以在一个streaming fashi原创 2014-07-28 18:24:20 · 460 阅读 · 0 评论 -
RPC远程过程调用
RPC——远程过程调用协议,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在,如TCP或UDP,为通信程序之间携带信息数据。在OSI网络通信模型中,RPC跨越了传输层和应用层。RPC使得开发包括网络分布式多程序在内的应用程序更加容易。 RPC采用客户机/服务器模式。请求程序就是一个客户机,而服务提供程序就是一个服务器。首先原创 2014-08-03 18:25:28 · 612 阅读 · 0 评论 -
将本地文件读成sequenceFile文件
HDFS在存储文件时,会将文件break them into chunks,默认inputSplit的大小与block块的大小一致,为128M,如果单个文件的大小小于block块的大小则不会切分,直接将改小文件存储到一个block块中。因此如果不对栅格数据文件做处理,将导致占据大量的block块;由于namenode中会存储为元数据信息,因此也将导致namenode节点记录大量小文件的位置等元数据原创 2014-07-31 16:56:26 · 4696 阅读 · 0 评论 -
使用DBInputFormat作为输入数据源
该代码展示了如何在hadoop中与数据库连接,并将数据库中的数据作为数据源原创 2014-08-14 22:51:38 · 675 阅读 · 0 评论 -
spark1.4版本与CDH5.1.3版本hive整合
环境说明:hadoop集群安装的是CDH5.1.3;spark是1.4版本,安装方式为standlone。 场景介绍:在spark-sql中,读取hive的数据 配置步骤如下: 1、找到hive的 hive-site.xml 文件和 hive-log4j.properties 文件 放入spark的 conf 目录下。 注:hive的配置文件目录位置为:/alidata/cloudera/原创 2015-08-26 09:59:24 · 1416 阅读 · 1 评论 -
hadoop提交任务后日志存放问题
hadoop提交任务后,会有日志记录此次执行的情况。目前这些日志都保留在hdfs文件系统中,生成了大量的小文件,从而耗费了大量的磁盘空间。如果每天提交的任务多且频繁,磁盘空间消耗的速率是比较惊人的。 可清理的日志路径: /user/history /tmp /user/root/.Trash 如下图所示,上面的部分是清除日志后磁盘的使用率与block块的数量,下图是没清理的。原创 2015-08-21 12:59:35 · 769 阅读 · 0 评论