
hadoop
涛之博
这个作者很懒,什么都没留下…
展开
-
Hadoop数据恢复的办法
Hadoop回收站trash,默认是关闭的。 需要进行相关的配置进行 1.修改conf/core-site.xml,增加 <property> <name>fs.trash.interval</name> <value>1440</value> <description>Number of minutes b...转载 2018-05-17 11:24:29 · 3186 阅读 · 1 评论 -
Hive一(hive初识)
一、Hive简介 Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件 映射为 一张数据库表,并提供类 SQL 查询功能。 本质是将 L SQL 转换为 e MapReduce 程序。 主要用途:用来做离线数据分析,比直接用 MapReduce 开发效率更高。 二.、HIve架构 1.架构图 2.hive组件 用户接口:包括 CLI、...原创 2018-03-10 23:48:07 · 234 阅读 · 0 评论 -
MR拔高细节
林子大了,什么鸟都有,hadoop集群大了,什么job都有。经常在hadoop集群里发现HDFS中有老多长度为0的part-000XX的文件,一看就知道是job的reduce产生的输出文件,但是由于job做partition时由于分桶函数不够优,或数据本身的偏移比较厉害,而且开发job的人又没有进行这种情况进行处理的经验,于是某些reduce上没有分到任何的数据,成了“空桶”,但是以hadoop目...转载 2018-06-15 17:52:57 · 261 阅读 · 0 评论