
hadoop
小狼躲藏
专注于数据仓库、治理、数据分析领域
展开
-
Hadoop 的分布式架构改进与应用
http://www.open-open.com/lib/view/open1338474925167.html转载 2014-04-30 11:34:04 · 453 阅读 · 0 评论 -
Hadoop IK分词 词频统计
本文实验使用的是IK Analyzer作为分词器, Hadoop2.4作为计算框架的测试DEMO.第一步: 搭建Ecelipse, 使用MAVEN构建.pom.xml<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"原创 2016-11-14 17:34:19 · 1157 阅读 · 0 评论 -
hadoop MMSEG4 分词实例
pom.xml<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/ma原创 2016-11-16 10:51:37 · 426 阅读 · 0 评论 -
hadoop----eclipse导入hadoop源码
首先保证已经安装 jdk ; maven ; protoc(不然编译源码报错下载地址) ; eclipse m2e插件设置maven镜像 maven\conf\settings.xmlmirrors> mirror> id>nexus-oscid> mirrorOf>*mirrorOf> name>Nexus转载 2016-10-18 10:27:53 · 365 阅读 · 0 评论 -
hadoop----eclipse导入hadoop源码
欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl转载 2016-10-18 10:27:06 · 365 阅读 · 0 评论 -
hadoop 2.7.1源码导入eclipse
最近在学习Hadoop,故想奖其源码导入Eclipse中,便于查看源码。 准备下面是要求的清单:(我是在opensuse上完成所有的编译,然后再将其拷贝到windows系统,有兴趣的童鞋可以直接在windows上编译)---------------------------------------------------------------------------转载 2016-10-18 10:24:17 · 575 阅读 · 0 评论 -
Hadoop深入研究(HDFS)---HDFS介绍
HDFS 设计原则:1. 非常大的文件2. 流式数据访问基于一次写, 多次读HDFS不适用的场景1. 低延迟的数据访问HDFS的强项在于大量的数据传输, 低延迟不适合HDFS, 10毫秒以下的访问可以无视HDFS,不过HBase可以弥补这个缺陷.2. 太多小文件namenode节点在内存中hold住了整个文件系统的元数据, 因此文件的数量就会收到限制, 每个转载 2015-05-26 17:56:55 · 513 阅读 · 0 评论 -
学习hadoop的好文章
http://sishuok.com/forum/blogCategory/showByCategory.html?categories_id=103&user_id=8636原创 2014-05-07 17:30:44 · 468 阅读 · 0 评论 -
Hadoop中两表JOIN的处理方法
Dong的这篇博客我觉得把原理写的很详细,同时介绍了一些优化办法,利用二次排序或者布隆过滤器,但在之前实践中我并没有在join中用二者来优化,因为我不是作join优化的,而是做单纯的倾斜处理,做join优化或者查询优化时,上述二者是最基本的优化办法了。1. 概述在传统数据库(如:MYSQL)中,JOIN操作是非常常见且非常耗时的。而在HADOOP中进行JOIN操作,同样常见转载 2014-05-07 18:43:27 · 433 阅读 · 0 评论 -
hadoop自动清除日志文件的配置方法
hadoop集群跑了很多的任务后在hadoop.log.dir目录下会产生大量的日志文件。可以通过配置core-site.xml文件让集群自动清除日志文件: hadoop.logfile.size 10000000 The max size of each log file hadoop.log转载 2014-05-07 17:53:28 · 974 阅读 · 0 评论 -
HBase/Hadoop 安装之前需要注意的配置问题
资源限制命令 : ulimit 和 noproc HBase 和其他的数据库软件一样会同时打开很多个文件. Linux默认的ulimit值是1024, 这对HBase来说太小了. 当使用诸如bulkload这种工具批量导入数据的时候会得到这样的异常信息: java.io.IOException:Too many open files.这里我们需要改变这个值, 注意, 这是对原创 2017-01-08 10:27:01 · 1679 阅读 · 0 评论