
hadoop
文章平均质量分 60
幸运六叶草
个人公众号:“Python技术博文”;关注人工智能,热衷学习IT新技术。
展开
-
Hive入门
Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 QL,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 m原创 2016-05-01 14:27:28 · 500 阅读 · 0 评论 -
Hadoop HDFS 的 -mkdir 不支持级联创建目录
1:hdfs的文件系统中如果没有目录aaa就要在其目录下创建bbb目录是不被允许的,即不支持级联创建新目录hadoop fs -mkdir /aaa/bbb如果aaa目录之前就已经存在则可以怎么创建2:可以首先创建aaa目录hadoop fs -mkdir /aaa然后再在aaa下创建bbbhadoop fs -mkdir /aaa/bbb原创 2016-04-17 14:32:42 · 10636 阅读 · 2 评论 -
Hadoop2.X中HDFS的高可用性实现原理
在Hadoop2.0.0之前,NameNode(NN)在HDFS集群中存在单点故障(single point of failure),每一个集群中存在一个NameNode,如果NN所在的机器出现了故障,那么将导致整个集群无法利用,直到NN重启或者在另一台主机上启动NN守护线程。 主要在两方面影响了HDFS的可用性: (1)、在不可预测的情况下,如果NN所在的机器崩溃了,整个集群将无转载 2016-04-17 21:23:48 · 1604 阅读 · 0 评论 -
Ubuntu hadoop 伪分布式环境搭建步骤
1.关闭防火墙查看防火墙状态 service iptables status 关闭防火墙 service iptables stop 查看防火墙开机启动状态 chkconfig iptables --list 关闭防火墙开机启动 chkconfig iptables off重启Linux reboot2.安装JDK2.1上传alt+p转载 2016-04-05 20:53:08 · 793 阅读 · 0 评论 -
大数据面试题分享
1.Hadoop集群可以运行的3个模式?单机(本地)模式伪分布式模式全分布式模式2. 单机(本地)模式中的注意点?在单机模式(standalone)中不会存在守护进程,所有东西都运行在一个JVM上。这里同样没有DFS,使用的是本地文件系统。单机模式适用于开发过程中运行MapReduce程序,这也是最少使用的一个模式。3. 伪分布模式中的注意点?伪分布式(Pseu原创 2016-05-30 14:40:21 · 990 阅读 · 0 评论 -
hive中的lateral view 用法详解上篇
描述lateral view用于和split, explode等UDTF一起使用,它能够将一行数据拆成多行数据,在此基础上可以对拆分后的数据进行聚合。lateral view首先为原始表的每行调用UDTF,UDTF会把一行拆分成一或者多行,lateral view再把结果组合,产生一个支持别名表的虚拟表。通过Lateral view可以方便的将UDTF得到的行转列的结果集合在一起提原创 2016-05-17 11:16:18 · 4169 阅读 · 0 评论 -
hive中的lateral view 用法详解下篇
例子假设我们有一张表pageAds,它有两列数据,第一列是pageid string,第二列是adid_list,即用逗号分隔的广告ID集合:string pageidArray adid_list"front_page"[1, 2, 3]"contact_page"[3, 4, 5]原创 2016-05-17 20:01:54 · 2681 阅读 · 0 评论 -
Hive 的Thrift服务
Hive具有一个可选的组件叫HiveServer或者HiveThrift,其允许通过指定端口访问Hive.Thrift是一个软件框架,其用于跨语言的服务开发。关于Thrift,可以通过链接http://thrift.apache.org/获得更多的信息。Thrigt允许客户端是使用包括java,c++,ruby和其他很多中语言,通过编程的方法远程访问Hive.访问Hive的最常用的方式就是通过CLI原创 2016-05-17 22:56:13 · 5779 阅读 · 0 评论 -
MapReduce实现分区详细过程
1.实现分区的步骤: 1.1先分析一下具体的业务逻辑,确定大概有多少个分区 1.2首先书写一个类,它要继承org.apache.hadoop.mapreduce.Partitioner这个类 1.3重写public int getPartition这个方法,根据具体逻辑,读数据库或者配置返回相同的数字 1.4在main方法中设置Partioner的类原创 2016-07-09 19:31:26 · 3911 阅读 · 0 评论 -
Hadoop1.x与Hadoop2的区别
Hadoop1.x与Hadoop2的区别1、变更介绍Hadoop2相比较于Hadoop1.x来说,HDFS的架构与MapReduce的都有较大的变化,且速度上和可用性上都有了很大的提高,Hadoop2中有两个重要的变更:l HDFS的NameNodes可以以集群的方式布署,增强了NameNodes的水平扩展能力和可用性;l MapReduce将JobTracker中的资转载 2016-07-11 17:50:24 · 541 阅读 · 0 评论 -
Permission denied: user=Administrator, access=WRITE, inode="/aa/mytest10.txt":anne:supergroup:drwxr
org.apache.hadoop.security.AccessControlException: Permission denied: user=Administrator, access=WRITE, inode="/aa/mytest10.txt":anne:supergroup:drwxr-xr-xat org.apache.hadoop.hdfs.server.namenode.F原创 2016-06-29 22:54:02 · 1359 阅读 · 0 评论 -
上传到HDFS上的文件遇到乱码问题
今天写了一个小MapReduce的程序,跑在集群上一切正常,但是当我查看运行结果时却发现了bug,结果中的中文文字竟然是乱码;我就开始了我的找错之路。。。。首先看看HDFS上我要用的文件本身内容有没有问题--------->运气好,一下就 查出来了,原来文件本身在上传过程中就乱码了。。。。 1)我开始重新上传,但是每一次上传的文件都是中文乱码;我原来用上传的文件是在虚拟机上原创 2016-06-30 15:45:01 · 12432 阅读 · 1 评论 -
MAVEN常用命令
MAVEN常用命令Maven库:http://repo2.maven.org/maven2/Maven依赖查询:http://mvnrepository.com/Maven常用命令: 1. 创建Maven的普通java项目: mvn archetype:create -DgroupId=packageName -DartifactI转载 2016-09-27 21:14:06 · 460 阅读 · 0 评论 -
java.lang.OutOfMemoryError:GC overhead limit exceeded填坑心得
我遇到这样的问题,本地部署时抛出异常java.lang.OutOfMemoryError:GC overhead limit exceeded导致服务起不来,查看日志发现加载了太多资源到内存,本地的性能也不好,gc时间消耗的较多。解决这种问题两种方法是,增加参数,-XX:-UseGCOverheadLimit,关闭这个特性,同时增加heap大小,-Xmx1024m。坑填了,but why?转载 2017-01-03 17:30:29 · 2480 阅读 · 0 评论 -
Ubuntu安装hadoop2.7.1----伪分布搭建
先上传hadoop的安装包到服务器上去/home/hadoop/ 注意:hadoop2.x的配置文件$HADOOP_HOME/etc/hadoop 伪分布式需要修改5个配置文件 3.1配置hadoop 第一个:hadoop-env.sh vim hadoop-env.sh #第27行 export JAV原创 2016-04-16 21:45:13 · 1060 阅读 · 0 评论 -
Ubuntu安装VMware Tools
安装VMware Tools目的:安装了VMware Tools之后分辨率可以适应屏幕了,而且可以从windows中直接拖动压缩包到Ubuntu中(此过程可以双向);1:键入密码登陆虚拟机 2:点击虚拟机----->设置 点击网络适配器,选择自定义--->选择VMnet8设置成如下: 3:点击虚拟机----->点击安装VMware原创 2016-04-16 21:21:40 · 769 阅读 · 0 评论 -
HDFS shell 中-du -df 用法详解
HDFS shell 命令输入hadoop fs 查看:应该输入hadoop fs -du -h hdfs://master:9000/*1:-df(linux下是查询磁盘空间大小)也可以查询某个目录的空间大小查看根目录下磁盘空间大小命令:hadoop fs -df /为了方便查看可以加上 -h2-du统计个目录下各个文件原创 2016-04-17 14:13:15 · 11992 阅读 · 0 评论 -
hadoop namenode 启动问题
执行start-all.sh的时候发现JPS一下namenode没有启动 每次开机都得重新格式化一下namenode才可以 其实问题就出在tmp文件,默认的tmp文件每次重新开机会被清空,与此同时namenode的格式化信息就会丢失, 于是我们得重新配置一个tmp文件目录 然后修改Hadoop/conf目录里原创 2016-04-20 13:52:50 · 717 阅读 · 0 评论 -
Hive 和 Hadoop 关系
Hive 构建在 Hadoop 之上, · HQL 中对查询语句的解释、优化、生成查询计划是由 Hive 完成的 · 所有的数据都是存储在 Hadoop 中 · 查询计划被转化为 MapReduce 任务,在 Hadoop 中执行(有些查询没有 MR 任务,如:select * from table)· Hadoop和Hive都是用UTF-8编码的原创 2016-05-01 14:30:26 · 2019 阅读 · 0 评论 -
Hive 和普通关系数据库的异同
1. 查询语言。由于 SQL 被广泛的应用在数据仓库中,因此,专门针对 Hive 的特性设计了类 SQL 的查询语言 HQL。熟悉 SQL 开发的开发者可以很方便的使用 Hive 进行开发。2. 数据存储位置。Hive 是建立在 Hadoop 之上的,所有 Hive 的数据都是存储在 HDFS 中的。而数据库则可以将数据保存在块设备或者本地文件系统中。3. 数据格式。Hive 中没原创 2016-05-01 14:34:23 · 1126 阅读 · 0 评论 -
zookeeper的工作原理
Zookeeper的核心是原子广播,这个机制保证了各个server之间的同步。实现这个机制的协议叫做Zab协议。Zab协议有两种模式,它们分别是恢复模式和广播模式。当服务启动或者在领导者崩溃后,Zab就进入了恢复模式,当领导者被选举出来,且大多数server的完成了和leader的状态同步以后,恢复模式就结束了。状态同步保证了leader和server具有相同的系统状态。一旦leader已原创 2016-05-01 14:41:13 · 603 阅读 · 0 评论 -
storm启动遇到问题storm expected <block end>, but found BlockMappingStart in 'reader', line 23, column 2:
storm expected , but found BlockMappingStart in 'reader', line 23, column 2: nimbus.host:"master"原因是我安装storm时没有删除nimbus.host: "master"这一行前面的空格解决办法:1:进入安装路径/home/hadoop/soft/apache-st原创 2016-05-01 20:36:10 · 5202 阅读 · 0 评论 -
Zookeeper的作用
1:Zookeeper从文件系统API得到启示,提供一组简单的API ,使得开发人员可以实现通用的协作任务,包括选选举主节点、管理组内成员关系、管理元数据(协同数据)等。2:Zookeeper的服务组件运行在一组专用的服务器上,保证了高容错性和可扩张性。应用数据与协同数据3:Zookeeper设计应用时,因为不同的应用有不同的需求,如一致性和持久性的不同需求,所以在设计时最好将应用原创 2016-05-03 10:43:42 · 2635 阅读 · 0 评论 -
Zookeeper中的主节点-从节点应用(master-worker)
一般在这种构架中。主节点进程负责跟踪从节点状态和任务的有效性,并分配任务到从节点。对Zookeeper来说,这个构架风格具有代表性,阐述了大多数流行的任务,如果选举主节点,跟踪有效的从节点,维护应用元数据。一个重要例子:HBase---Google的数据存储系统(BigTable)模型的实现,在最高层,主节点服务器(Hmaster)负责跟踪区域服务器(HRegionServer)是否可用,原创 2016-05-03 14:11:01 · 8795 阅读 · 0 评论 -
hive--删除表中的数据truncate
delect:用于删除特定行条件,你可以从给定表中删除所有的行TRUNCATE:truncate用于删除所有的行,这个行为在hive元存储删除数据是不可逆的DROP:删除hive中的表truncate 不能删除外部表!因为外部表里的数据并不是存放在Hive Meta store中truncate:truncate table table_name;原创 2016-05-15 21:19:20 · 67402 阅读 · 0 评论 -
hive视图
Hive 0.6版本及以上支持视图Hive View具有以下特点:1. View是逻辑存在,Hive暂不支持物化视图(1.0.3)2. View只读,不支持LOAD/INSERT/ALTER。需要改变View定义,可以是用Alter View3. View内可能包含ORDER BY/LIMIT语句,假如一个针对view的查询也包含这些语句, 则view中的语句优先级高。例如,定义v转载 2016-05-16 08:18:49 · 1823 阅读 · 0 评论 -
java.lang.NoClassDefFoundError;java.io.IOException: Cannot initialize Cluster.
今天遇到的问题:1:Exception in thread "main" java.io.IOException: Cannot initialize Cluster. Please check your configuration for mapreduce.framework.name and the correspond server addresses.解决方法:把原创 2016-04-20 21:02:18 · 2272 阅读 · 0 评论 -
向eclipse中导入源码教程详解
1:首先你的得下载好一份你需要的源码,存放在一个路径下2:然后打开eclipsed如下图所演示的:点击框出来的部分3:然后选择external location:4:然后找到你的源码存放路径添加上即可:6:如下我要导入在路径/home/hadoop/app/hadoop-2.4.1 下的hadoop 的源码原创 2016-04-20 20:50:08 · 1021 阅读 · 0 评论 -
mr(mapreduce)几种提交运行模式
本地模型运行1/在windows的eclipse里面直接运行main方法,就会将job提交给本地执行器localjobrunner执行---输入输出数据可以放在本地路劲下(c:/wc/srcdata)---输入输出数据还可以放在hdfs中(hdfs://master:9000/wc/srcdata)2/在linux的eclipse里面直接运行main方法,但是不要添加yar原创 2016-04-20 20:41:20 · 1333 阅读 · 0 评论 -
hadoop集群搭建的无密登陆(密钥)---ssh(ssh-keygen -t rsa;scp ../id_rsa.pub >> ./authorized_keys)
hadoop集群无密登陆示意图:#生成ssh免登陆密钥#在没生成密钥的时候远程登陆是需要输入密码的,而且每一次启动hdfs的节点都是需要键入密码,#对应大量集群的hadoop这种问题是十分恶心的,基本上不可行。无密码状态:红色框框就是在远程登陆时需要输入密码!下面我以两台机器主机:master还有一台:slave1作为演示ha原创 2016-04-17 17:05:00 · 17142 阅读 · 0 评论 -
Exception in thread "main" java.lang.RuntimeException: java.lang.NoSuchFieldException: versionID
zlog4j:WARN No appenders could be found for logger (org.apache.hadoop.metrics2.lib.MutableMetricsFactory).log4j:WARN Please initialize the log4j system properly.log4j:WARN See http://logging.apach原创 2016-04-18 16:29:53 · 5695 阅读 · 0 评论 -
RPC——远程过程调用协议
1:RPC——远程过程调用协议,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在,如TCP或UDP,为通信程序之间携带信息数据。在OSI网络通信模型中,RPC跨越了传输层和应用层。RPC使得开发包括网络分布式多程序在内的应用程序更加容易。2:RPC采用客户机/服务器模式。请求程序就是一个客户机,而服务提供程序就是一个服务器。首先,客户原创 2016-04-18 16:44:35 · 1049 阅读 · 0 评论 -
【Hadoop基础教程】Hadoop之单词计数wordcount
单词计数是最简单也是最能体现MapReduce思想的程序之一,可以称为MapReduce版“Hello World”,该程序的完整代码可以在Hadoop安装包的src/example目录下找到。单词计数主要完成的功能:统计一系列文本文件中每个单词出现的次数,如下图所示。本blog将通过分析WordCount源码来帮助大家摸清MapReduce程序的基本结构和运行机制。开发环境转载 2016-04-19 13:16:13 · 5078 阅读 · 0 评论 -
安装Ubuntu虚拟机详解
安装Ubuntu虚拟机详解:1:安装好VMware之后启动,点击“创建新的虚拟机” 2:点击下一步 3:选择安装所需要的镜像(可以默认直接点击下一步) 4:个性化Linux全名:master---->启动时显示的名字(如图1)用户名:hadoop----->(图2) 5:这里需要修改两个位置1)虚拟机的名称:这个名字就是启动后原创 2016-04-16 20:28:11 · 7126 阅读 · 0 评论