Hadoop
小小北漂
专注于大数据开发、调优、运维和web、爬虫相关开发
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
hdfs命令响应特别慢的问题
在集群的客户端使用hdf命令去查询的时候,出现一个响应特别慢的情况。同样的两个客户端节点,一个秒回,但是另一个可能需要数十秒才能响应。最终发现响应特别慢的原因是因为没有将hostname配置到/etc/hosts文件中...原创 2020-05-29 18:35:09 · 2625 阅读 · 0 评论 -
hbase之布隆过滤器
一、布隆过滤器布隆过滤器(Bloom Filter)是1970由布隆提出的。通过一个很长的二进制向量于一系列随即哈希函数生成。下面我就将通过以下小节来介绍布隆过滤器:1、原因与结构解析2、数学公式1.1 原因与结构解析首先,我们应当知道,hash是内存中使用的经典数据结构。当我们需要判读一个元素是否在一个集合当中时,我们可以用哈希表来判断。在集合较小的情况下,hash是可行而且...转载 2019-04-13 21:07:30 · 469 阅读 · 0 评论 -
SPARK-SQL内置函数之时间日期类
转载请注明转自:http://www.cnblogs.com/feiyumo/p/8760846.html一、获取当前时间1.current_date获取当前日期2018-04-092.current_timestamp/now()获取当前时间2018-04-09 15:20:49.247二、从日期时间中提取字段 1.year,month,day/dayofmonth,hour,minute,se...转载 2018-05-17 11:04:17 · 30464 阅读 · 0 评论 -
HDFS之Qurom Journal Manager(QJM)
一、背景与架构1.前言1.1背景 自从hadoop2版本开始,社区引入了NameNode高可用方案。NameNode主从节点间需要同步操作日志来达到主从节点元数据一致。最初业界均通过NFS来实现日志同步,大家之所以选择NFS,一方面因为可以很方便地实现数据共享,另外一方面因为NFS已经发展20多年,已经相对稳定成熟。虽然如此,NFS也有缺点不能满足HDFS的在线存储业务:网络单点及其存储节点...转载 2018-02-08 19:56:43 · 463 阅读 · 0 评论 -
HBase之get方法
HTable类中提供了get()方法,同时还有与之对应的Get类。get方法分为两类:一类是一次获取一行数据;另一类是一次获取多行数据。 单行get这种方法可以从HBase中获取一个特定的值:Result get(Get get) throws IOException1与put()方法对应Put类相似,get()方法也有对应的Get类,此外还有一个相似之处,那就是在转载 2017-11-15 11:19:05 · 16416 阅读 · 0 评论 -
hadoop 2.7.2 yarn中文文档—— Capacity Scheduler
目标本文档将描述CapacityScheduler,它作为一个可插拔的hadoop调度器,允许多租户安全的共享一个大的集群,在资源分配有限的条件下适时的为应用程序分配资源。 综述CapacityScheduler被设计作为一个共享的、多租户集群用来运行hadoop应用,在操作友好的方式下最大化集群吞吐量和利用率 。传统的,每个组织(Organ转载 2017-09-28 09:17:32 · 6492 阅读 · 1 评论 -
Spark Yarn 调度器Scheduler详解
(转载:http://www.mamicode.com/info-detail-1097801.html)一、调度器的选择在Yarn中有三种调度器可以选择:FIFO Scheduler,Capacity Scheduler,FairS cheduler。FIFO Scheduler把应用按提交的顺序排成一个队列,这是一个先进先出队列,在进行资源分配的时候,先给队列中最头上的应用进行转载 2017-09-28 16:57:49 · 803 阅读 · 0 评论 -
spark,hadoop,hbase集群无法停止的问题
长时间运行集群之后,如何需要停止集群使用stop相关命令时常常会都提示no datanode,no namenode等等之类的信息,查看相关stop-all.sh stop-dfs.sh,stop-yarn.sh脚本,发现原理都是通过一个pid文件来停止集群的。这些进程的pid文件默认都是保存在系统的/tmp目录下面,系统每个一段时间就会清楚/tmp下面的内容,于是我ls /tmp看了一下,果转载 2017-08-14 16:54:21 · 1489 阅读 · 0 评论 -
hadoop集群普通用户安装时,jps命令运行报错
最近在使用普通用户安装集群时,服务器上发布应用时碰到一个如下的异常:Caused by: java.lang.OutOfMemoryError: unable to create new native threadat java.lang.Thread.start0(Native Method)at java.lang.Thread.start(Thread.java:640)初看原创 2017-08-14 16:43:56 · 1092 阅读 · 0 评论 -
hbase读写demo
import java.io.IOException;import java.text.DateFormat;import java.text.SimpleDateFormat;import java.util.ArrayList;import java.util.Date;import java.util.List; import org.apache.hado原创 2017-07-28 19:44:10 · 1596 阅读 · 0 评论 -
Spark与HBase的整合
前言之前因为仅仅是把HBase当成一个可横向扩展并且具有持久化能力的KV数据库,所以只用在了指标存储上,参看很早之前的一篇文章基于HBase做Storm 实时计算指标存储。这次将HBase用在了用户行为存储上,因为Rowkey的过滤功能也很不错,可以很方便的把按人或者内容的维度过滤出所有的行为。从某种意义上,HBase的是一个有且仅有一个多字段复合索引的存储引擎。虽然我比较推崇实时转载 2017-07-28 14:08:45 · 3765 阅读 · 0 评论 -
HBase Rowkey的散列与预分区设计
HBase中,表会被划分为1...n个Region,被托管在RegionServer中。Region二个重要的属性:StartKey与EndKey表示这个Region维护的rowKey范围,当我们要读/写数据时,如果rowKey落在某个start-end key范围内,那么就会定位到目标region并且读/写到相关的数据。简单地说,有那么一点点类似人群划分,1-15岁为小朋友,16-39岁为年轻人转载 2017-07-28 10:51:34 · 501 阅读 · 0 评论
分享