
大数据
文章平均质量分 84
mm_bit
这个作者很懒,什么都没留下…
展开
-
大数据之简介
要理解大数据这一概念,首先要从”大”入手,”大”是指数据规模,大数据一般指在10TB(1TB=1024GB)规模以上的数据量。大数据同过去的海量数据有所区别,其基本特征可以用4个V来总结(Vol-ume、Variety、Value和Veloc-ity),即体量大、多样性、价值密度低、速度快。大数据特点第一,数据体量巨大。从TB级别,跃升到PB级别。第二,数据类型繁多,如前文提到转载 2015-07-22 17:38:50 · 921 阅读 · 0 评论 -
Hbase安装
环境:CentOS6.5 Hadoop2.7.2 HBase1.2.11.安装好 hadoop 集群,并启动 [grid@hadoop4 ~]$ sh hadoop-2.7.2/sbin/start-dfs.sh [grid@hadoop4 ~]$ sh hadoop-2.7.2/sbin/start-yarn.sh 查看 hadoop 版本: [grid@hadoop原创 2016-04-19 19:19:39 · 1325 阅读 · 0 评论 -
Apache Ranger0.6版本源码编译
1 Ranger简介Apache Ranger提供一个集中式安全管理框架,它可以对Hadoop生态的组件如Hive,Hbase进行细粒度的数据访问控制.通过操作Ranger控制台,管理员可以轻松的通过配置策略来控制用户访问HDFS文件夹、HDFS文件、数据库、表、字段权限.这些策略可以为不同的用户和组来设置,同时权限可与hadoop无缝对接.2 准备2.1 环境说明1 Ra原创 2016-04-21 18:44:02 · 3763 阅读 · 11 评论 -
HBase学习
HBase简介HBase是Apache Hadoop的数据库,能够对大型数据提供随机、实时的读写访问,是Google的BigTable的开源实现。HBase的目标是存储并处理大型的数据,更具体地说仅用普通的硬件配置,能够处理成千上万的行和列所组成的大型数据库。HBase是一个开源的、分布式的、多版本的、面向列的存储模型。可以直接使用本地文件系统也可使用Hadoop的HDFS文件存储系统转载 2016-05-06 18:34:48 · 981 阅读 · 0 评论 -
HBase集群中RegionServer崩溃后的快速恢复措施探索
随着互联网和通信行业的迅猛发展,积聚的各种数据呈急剧增长态势。这些海量数据既蕴含着丰富的信息和资源,又面临着信息有效管理和提取的难题。云计算是分布式处理、并行处理和网格计算的发展,可以提供近乎无限的廉价存储和计算能力,特别适合于日益暴增的海量数据的存储和处理。在云计算领域中,Hadoop体系独树一帜,其丰富的子系统可以满足多种领域和行业的应用需求,而其中的HBase作为一种非结构化数据库,特别适合转载 2016-07-08 09:49:07 · 2335 阅读 · 0 评论 -
HBase-1.2.1之HRegionServer启动源码学习
在hbase-server项目中的org.apache.hadoop.hbase.regionserver.HRegionServer类中。public HRegionServer(Configuration conf, CoordinatedStateManager csm) throws IOException, InterruptedException { this.原创 2016-07-28 14:49:27 · 1552 阅读 · 0 评论 -
HBase-1.2.1之Get操作源码学习
最近在学习HBase的源码,主要是学习HRegionServer部分。从Get请求入手,找到了主要的实现类:Get,HTable,ConnectionManager等。具体如下:Get操作:使用Java API读取数据:1、 实例化Configuration类Configuration conf = HbaseConfiguration.create();在Hba原创 2016-05-30 15:09:32 · 1571 阅读 · 1 评论 -
hbase错误:Org.apache.hadoop.ipc.RemoteException:User:client is not allowed to impersonate root
场景:远程登录配有Kerberos的hbase的时候,client端用到的kerberos的principal是client/mj1@BDSM.CMCC错误:Org.apache.hadoop.ipc.RemoteException:User:clientis not allowed to impersonate root;解决方法:在hadoop的配置文件core-site.xm原创 2016-07-29 10:57:06 · 5235 阅读 · 0 评论 -
通过hive访问hbase中的表
在hbase中创建表后,我们只能在hbase shell中使用scan查询数据,这对于熟悉SQL的使用者不怎么习惯,不过我们可以在hive中创建外部表来访问hbase表中的数据,例子如下:1.这里hbase中的表oss_user_label_action_data已经存在=> #hbase(main):067:0> scan 'oss_user_label_action_dat转载 2016-07-19 16:58:49 · 1390 阅读 · 0 评论 -
Intellij连接远程hadoop
环境:服务器:CentOS6.6 Hadoop-2.7.2client端:windows10:开发工具:intellij IDEA前期准备:需要在windows平台下载hadoop-2.7.2的bin包,并且解压到本地目录,我的是在E:\hadoop-2.7.2\hadoop-2.7.2,具体如下:1、在intellij中创建一个maven project flie-原创 2016-08-04 15:36:55 · 10236 阅读 · 0 评论 -
HBase 写优化之 BulkLoad 实现数据快速入库
1、为何要 BulkLoad 导入?传统的 HTableOutputFormat 写 HBase 有什么问题?我们先看下 HBase 的写流程:通常 MapReduce 在写HBase时使用的是 TableOutputFormat 方式,在reduce中直接生成put对象写入HBase,该方式在大数据量写入时效率低下(HBase会block写入,频繁进行flush,split,comp转载 2016-08-01 17:45:33 · 2717 阅读 · 0 评论 -
HBase数据库检索性能优化策略
HBase 数据表介绍HBase 数据库是一个基于分布式的、面向列的、主要用于非结构化数据存储用途的开源数据库。其设计思路来源于 Google 的非开源数据库”BigTable”。HDFS 为 HBase 提供底层存储支持,MapReduce 为其提供计算能力,ZooKeeper 为其提供协调服务和 failover(失效转移的备份操作)机制。Pig 和 Hive 为 HBase转载 2016-03-21 18:01:29 · 856 阅读 · 0 评论 -
java api登录远程配有kerbeors的hbase实现
昨天开始才知道IDEA Intellij中可以在打包的jar包中设置断点进行debug,于是决定把之前遗留下的连接远程hbase的问题重新捡起解决。现在的环境:client端:是windows10的系统,开发工具为IDEA Intellij 远程的服务器端:是非本地机的centos系统。使用的hadoop为2.7.2版本,hbase为1.2.1原创 2016-07-22 17:57:06 · 3307 阅读 · 0 评论 -
hbase1.2.1配置kerberos
今天需要在hbase上配置kerberos认证,所以需要安装kerberos,安装配置过程如下:kerberos简介kerberos简单来说就是一套完全控制机制,它有一个中心服务器(KDC),KDC中有数据库,你可以往里添加各种“人”以及各种“服务”的“身份证”,当某个人要访问某个服务时,他拿着自己的“身份证”联系KDC并告诉KDC他想要访问的服务,KDC经过一系列验证步骤,最原创 2016-04-29 17:25:05 · 8485 阅读 · 1 评论 -
HBase中的HMaster、HRegionServer、Zookeeper
HMaster是HBase主/从集群架构中的中央节点。通常一个HBase集群存在多个HMaster节点,其中一个为Active Master,其余为Backup Master.Hbase每时每刻只有一个hmaster主服务器程序在运行,hmaster将region分配给region服务器,协调region服务器的负载并维护集群的状态。Hmaster不会对外提供数据服务,而是由region服原创 2016-05-03 16:00:44 · 10266 阅读 · 0 评论 -
zookeeper-3.4.8配置kerberos
ZooKeeper跟Hadoop Core、HBase有什么关系呢?ZooKeeper都提供了哪些服务呢?主要有:管理Hadoop集群中的NameNode,HBase中HBaseMaster的选举,Servers之间状态同步等。具体一点,细一点说,单只HBase中ZooKeeper实例负责的工作就有:存储HBase的Schema,实时监控HRegionServer,存储所有Region的寻址入口,原创 2016-04-29 17:21:13 · 3446 阅读 · 0 评论 -
HBase优化技巧、存储
这篇文章浅显的从几个方面谈谈HBase的一些优化技巧,只能作为我学习笔记的一部分,因为学多了怕忘,留给自己以后看看。1 修改 linux 系统参数Linux系统最大可打开文件数一般默认的参数值是1024,如果你不进行修改并发量上来的时候会出现“Too Many Open Files”的错误,导致整个HBase不可运行,你可以用ulimit -n 命令进行修改,或者修改/etc/se转载 2016-03-21 18:14:14 · 2017 阅读 · 0 评论 -
大数据处理分析的工具介绍
HadoopHadoop 是一个能够对大量数据进行分布式处理的软件框架。但是 Hadoop 是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。Hadoop 是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop 还是可伸缩的,能够处理 PB 级数据。此外,Ha转载 2015-07-22 11:36:47 · 757 阅读 · 0 评论 -
org.apache.spark.SparkException: A master URL must be set in your configuration
14/05/30 16:04:23 ERROR UserGroupInformation: PriviledgedActionException as:jnleec (auth:SIMPLE) cause:java.lang.reflect.InvocationTargetExceptionException in thread "Thread-3" java.lang.reflect.Unde原创 2015-09-08 12:03:52 · 6927 阅读 · 0 评论 -
java打包jar文件,在hadoop中运行
在eclipse中编写完hadoop程序后,运行无错,使用eclipse自带的打包工具打包jar文件,具体步骤如下:1、右键要打包的包或者类,export->java中的可运行jar文件Runnable JarFile,然后一直下一步,注意为了不出错,把依赖的包也打包进去,所以后面选择Package required labiries into generated jars,选择你要保存jar原创 2015-11-03 16:57:55 · 8423 阅读 · 0 评论 -
hadoop中map到reduce的过程详解
对于Hadoop的MapReduce执行机制,主要分为两部分来处理数据,mapper和reducer阶段,这两个阶段中间有一个非常重要的shuffle过程,这个过程其实是mapreduce的核心部分,因为优化过程主要就是从shuffle处下手。系统将map输出作为输入传给reducer的过程(同时会排序)成为shuffle。shuffle是MapReduce的“心脏”,是奇迹发生的地方。现就m原创 2015-11-09 14:17:07 · 9280 阅读 · 0 评论 -
hadoop估算π
一、hadoop不适合计算密集型的工作 以前看过一个PPT: Hadoop In 45 Minutes or Less ,记得上面说hadoop不适合计算密集型的工作,比如计算PI后100000位小数。 但是,前几天,我却发现了在hadoop自带的examples里,竟然有PiEstimator这个例子!!它是怎么做到的?? 二、通过扔飞镖也能得出PI的值?转载 2015-11-17 17:40:36 · 2128 阅读 · 0 评论 -
spark和hadoop的区别
spark的结构图如下:一个Application和一个SparkContext相关联,每个Application中可以有一个或多个Job,可以并行或者串行运行 Job。Spark中的一个Action可以触发一个Job的运行。在Job里面又包含了多个Stage,Stage是以Shuffle进行划分的。在 Stage中又包含了多个Task,多个Task构成了Task Se原创 2015-12-21 17:39:44 · 2373 阅读 · 0 评论 -
Hadoop知识点总结
之前自己在慕课网在线学习了关于hadoop的初步知识,在此记录一下:hadoop主要是由两部分构成:1、HDFS,负责存储,为分布式文件系统;2、MapReduce,是并行处理框架,用于实现任务的分解和调度。hadoop的优势:1、高扩展:通过添加硬件来实现性能的提升,扩充容量。2、低成本:只需要普通PC机即可,不需高端硬件。3、成熟的生态圈:周边开源工具丰富:有Hive、HBase(其中原创 2015-12-07 11:26:22 · 1952 阅读 · 0 评论 -
hive中的分区表
分区表其实就是按照表中数据的某一列的值进行划分文件(自我理解类似于sql查询中的group by),一个分区下包含多个子目录,用于分区的虚拟列有多少种枚举值就有多少个子目录。分区表可以采用一个虚拟列进行分区,也可以采用多个虚拟列进行分区。分区是在处理大型事实表时常用的方法。分区的好处在于缩小查询扫描范围,从而提高速度。分区分为两种:静态分区static partition和动态分区dyna原创 2015-12-07 16:01:04 · 2287 阅读 · 0 评论 -
HBase深入学习(1)
HBase架构组成HBase采用Master/Slave架构搭建集群,它隶属于Hadoop生态系统,由一下类型节点组成:HMaster节点、HRegionServer节点、ZooKeeper集群,而在底层,它将数据存储于HDFS中,因而涉及到HDFS的NameNode、DataNode等,总体结构如下:其中HMaster节点用于:管理HRegionServer,实现转载 2016-03-21 17:18:23 · 835 阅读 · 0 评论 -
HBase深入学习(2)
HBase读的实现通过前文的描述,我们知道在HBase写时,相同Cell(RowKey/ColumnFamily/Column相同)并不保证在一起,甚至删除一个Cell也只是写入一个新的Cell,它含有Delete标记,而不一定将一个Cell真正删除了,因而这就引起了一个问题,如何实现读的问题?要解决这个问题,我们先来分析一下相同的Cell可能存在的位置:首先对新写入的Cell,它会存在于转载 2016-03-21 17:20:54 · 547 阅读 · 0 评论 -
HBase特征
Hbase是运行在Hadoop上的NoSQL数据库,它是一个分布式的和可扩展的大数据仓库,也就是说HBase能够利用HDFS的分布式处理模式,并从Hadoop的MapReduce程序模型中获益。这意味着在一组商业硬件上存储许多具有数十亿行和上百万列的大表。除去Hadoop的优势,HBase本身就是十分强大的数据库,它能够融合key/value存储模式带来实时查询的能力,以及通过MapReduce进转载 2016-03-21 18:03:33 · 1031 阅读 · 0 评论 -
HBase周边知识
HBase 不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库.所谓非结构化数据存储就是说HBase是基于列的而不是基于行的模式,这样方便读写你的大数据内容。HBase是介于Map Entry(key & value)和DB Row之间的一种数据存储方式。就点有点类似于现在流行的Memcache,但不仅仅是简单的一个key对应一个 value,你很可能需要存储多个属性的数据结构转载 2016-03-21 18:10:15 · 708 阅读 · 0 评论 -
Linux下Hadoop2.6的安装
linux:安装流程:1、安装JDK,要求是jdk1.6及其以上的版本:以jdk-8u40-linux-x64.gz为例,在你的java下载目录下sudo tar -zxvf jdk-8u40-linux-x64.gzsudo mv hadoop-2.6.0 /usr/local/jdk1.8.0_40 然后sudo gedit /etc/profi原创 2015-10-28 11:23:06 · 2158 阅读 · 0 评论