
hadoop
RashaunHan
这个作者很懒,什么都没留下…
展开
-
mapreduce Initialization of all the collectors failed. Error in last collector was :null
在运行MapReduce的时候遇到这个错误,后来发现是自定义的flowbean没有implements writable接口原创 2018-10-11 15:15:43 · 3750 阅读 · 0 评论 -
HDFS的读写操作
在HDFS读操作数据读取请求将由 HDFS,NameNode和DataNode来服务。让我们把读取器叫 “客户”。下图描绘了文件的读取操作在 Hadoop 中。客户端启动通过调用文件系统对象的 open() 方法读取请求; 它是 DistributedFileSystem 类型的对象。 此对象使用 RPC 连接到 namenode 并获取的元数据信息,如该文件的块的位置。 请注意,这些地...转载 2018-11-29 09:31:57 · 261 阅读 · 0 评论 -
通过myeclipse操作hdfs时出现错误
出现如下错误Permission denied: user=admin, access=WRITE, inode="/hadoop/input":hadoop:supergroup:drwx出现这种错误的原因是因为文件夹没有权限用如下命令修改文件夹访问权限 hadoop fs -chmod 777 /hadoop/inout随后即可完成这个方法不推荐 其...原创 2018-11-28 08:58:43 · 212 阅读 · 0 评论 -
HBase 和 Hive 的比较
1、相同点1、HBase 和 Hive 都是架构在 Hadoop 之上,用 HDFS 做底层的数据存储,用 MapReduce 做数据计算 2、不同点1、Hive 是建立在 Hadoop 之上为了降低 MapReduce 编程复杂度的 ETL 工具。 HBase 是为了弥补 Hadoop 对实时操作的缺陷2、Hive 表是纯逻辑表,因为 Hive 的本身并不能做数据存储和计算,...原创 2018-11-27 16:31:43 · 592 阅读 · 1 评论 -
HBase 应用场景
1、半结构化或非结构化数据对于数据结构字段不够确定或杂乱无章很难按一个概念去进行抽取的数据适合用 HBase。而且 HBase 是面向列的,HBase 支持动态增加字段2、记录非常稀疏RDBMS 的行有多少列是固定的,为 null 的列浪费了存储空间。而 HBase 为 null 的 Column是不会被存储的,这样既节省了空间又提高了读性能。3、多版本数据对于需要存储变动历史...转载 2018-11-27 16:32:46 · 943 阅读 · 0 评论 -
HBase的逻辑视图
1.行键(RowKey)与 NoSQL 数据库们一样,RowKey 是用来检索记录的主键。访问 HBase Table 中的行,只有三种方式:1、通过单个 row key 访问2、通过 row key 的 range3、全表扫描RowKey 行键可以是任意字符串(最大长度是 64KB,实际应用中长度一般为 10-100bytes),最好是 16。在 HBase 内...转载 2018-11-27 16:33:27 · 1104 阅读 · 0 评论 -
HBase的一些要点
以下五点是 HBase 这个 NoSQL 数据库的要点① 高并发,以扩展,解决海量数据集的随机实时增删改查② HBase 本质依然是 Key-Value 数据库,查询数据功能很简单,不支持 join 等复杂操作(可通过 Hive 支持来实现多表 join 等复杂操作)③ 不支持复杂的事务,只支持行级事务④ HBase 中支持的数据类型:byte[](底层所有数据的存储都是字节数...原创 2018-11-27 16:34:08 · 171 阅读 · 0 评论 -
Hive从HDFS中加载数据
建表 以手机流量信息为例插入30w行数据 create table flow(id string,phonenum string,mac string,ip string,num1 int,num2 int,up int,down int,allflow int) row format delimited fields terminated by "\t";列名不能...原创 2018-11-27 16:36:22 · 3672 阅读 · 0 评论 -
Hadoop中HDFS优缺点
HDFS的优点: 1、处理超大文件 这里的超大文件通常是指百MB、甚至数百TB大小的文件。目前在实际应用中,HDFS已经能用来存储管理PB级的数据了。 2、流式的访问数据 HDFS的设计建立在“一次写入、多次读写”任务的基础上。这意味着一个数据集一旦由数据源生成,就会被复制分发到不同的存储节点中...转载 2018-11-27 16:42:20 · 839 阅读 · 0 评论 -
使用多台ECS搭建zookeeper集群时启动集群每一台都有QuorumPeerMain进程但是无法选举的问题
我在使用3台ECS搭建zookeeper集群的时候成功启动了QuorumPeerMain进程但是服务器之间无法连接报connection refused错误,尝试更改服务器的安全组策略失败。 后发现是因为我的ECS实例是使用“专有网络” + 弹性公网IP地址,但是因为服务器的弹性公网ip是独立于ECS之外的,因此不能直接在ECS实例的程序中绑定自己的公网ip地址,而...原创 2018-11-18 16:24:05 · 1639 阅读 · 0 评论 -
Hive安装的时候元数据库使用自己安装的mysql时出现SQL Error code: 1045
出现如下错误Access denied for user 'root'@'localhost' (using password: YES)如图通过在mysql中执行如下命令解决GRANT ALL PRIVILEGES ON *.* TO 'root'@'localhost' IDENTIFIED BY 'han12345' WITH GRANT OPTION;FLUSH PRIVIL...原创 2018-11-19 19:24:16 · 1290 阅读 · 1 评论 -
MapReduce自定义writable统计文本中30W条信息中的电话号码的上下行及总流量
Driver类public class flowSum {static class mymapper extends Mapper<LongWritable, Text, Text, FlowBean>{ @Override protected void map(LongWritable key, Text value, Context contex...原创 2018-10-11 15:25:36 · 233 阅读 · 0 评论 -
Combiner与自定义Combiner
一、Combiner的出现背景1.1 回顾Map阶段五大步骤 在第四篇博文《初识MapReduce》中,我们认识了MapReduce的八大步凑,其中在Map阶段总共五个步骤,如下图所示:map section其中,step1.5是一个可选步骤,它就是我们今天需要了解的 Map规约 阶段。现在,我们再来看看前一篇博文《计数器与自定义计数器》中的第一张关于计数器的图:我们可以发现,其中有两...转载 2018-10-25 09:36:17 · 451 阅读 · 0 评论 -
Hadoop集群的搭建【完全分布式】
集群安装在多个节点上的 1)多个节点的要求: 多个节点的用户名(安装的时候使用的用户/普通用户)一定要统一 多个节点的安装目录统一 集群规划:集群中的各个节点安装的组件有哪些 HDFS yarn namenode datanode secondarynamenode rm nm master namenode resourcemanager ...原创 2018-11-13 15:08:15 · 176 阅读 · 0 评论 -
hadoop集群添加新节点
0.说明Hadoop集群已经运行正常,现在新买了一些机子,要加入到集群里面增加新的节点。以下就是增加的过程。1.配置运行环境安装与master和其他slave相同的java环境,jdk版本要相同。具体安装过程这里不再赘述。 修改新节点的ip和主机名对应关系,修改/etc/hosts配置文件,定义ip与hostname的映射。 关闭新节点防火墙,因为Hadoop集群是在内网环境运行,...转载 2018-11-13 15:09:35 · 1432 阅读 · 0 评论 -
Hadoop搭建之前的准备
搭建准备: 1)配置静态ip 2)修改主机名 3)修改hosts 4)配置普通用户的sudo权限 v...原创 2018-11-13 15:11:09 · 325 阅读 · 0 评论 -
Hadoop中的文件上传
上传命令 其中test.txt为要上传的文件 /input为指定的上传到的目录 / 为根目录 从客户端所在的本地上传到hdfs的集群中 hadoop fs -put test.txt /input hadoop 启动一个hadoop客户端 fs filesystem ...原创 2018-11-13 15:15:26 · 1117 阅读 · 0 评论 -
搭建Hadoop的HA集群的搭建
1.上传安装包2.解压tar -xvzf hadoop-2.7.6.tar.gz3.配置环境变量export HADOOP_HOME=/home/hadoop/apps/hadoop-2.7.6export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbinsource /etc/profile验证:hadoop version4)修改h...原创 2018-11-19 14:19:01 · 205 阅读 · 0 评论 -
HBase添加协处理器并且使其生效
1.在hbase-site.xml中添加如下配置信息使协处理器生效 <property> <name>hbase.coprocessor.region.classes</name> <value>hbase.CalleeWriteObserver</value> </property>以上的类名换成自...原创 2018-12-11 11:56:25 · 1170 阅读 · 0 评论