
hadoop
yangbosos
这个作者很懒,什么都没留下…
展开
-
distcp---hadoop数据迁移利器
概述DistCp(分布式拷贝)是用于大规模集群内部和集群之间拷贝的工具。 它使用Map/Reduce实现文件分发,错误处理和恢复,以及报告生成。 它把文件和目录的列表作为map任务的输入,每个任务会完成源列表中部分文件的拷贝。 由于使用了Map/Reduce方法,这个工具在语义和执行上都会有特殊的地方。 这篇文档会为常用DistCp操作提供指南并阐述它的工作模型。使用方法基本使用方法...转载 2018-02-07 21:10:39 · 1593 阅读 · 2 评论 -
windows下安装并启动hadoop2.7.2
64位windows安装hadoop没必要倒腾Cygwin,直接解压官网下载hadoop安装包到本地->最小化配置4个基本文件->执行1条启动命令->完事。一个前提是你的电脑上已经安装了jdk,设置了java环境变量。下面把这几步细化贴出来,以hadoop2.7.2为例 1、下载hadoop安装包就不细说了:http://hadoop.apache.org/->左边点...转载 2019-03-30 08:57:01 · 1958 阅读 · 0 评论 -
hadoop报错Wrong FS: hdfs:/, expected: file:///
在hadoop-2.2.0版本中对hdfs进行简单的测试操作,代码如下所示 Configuration conf = new Configuration(); try { FileSystem fs = FileSystem.get(conf); Path f = new Path("hdfs:///...转载 2019-04-04 19:50:55 · 4976 阅读 · 0 评论 -
腾讯--TBDS大数据集群迁移实践总结
背景xx公司属于最早一批使用TBDS(腾讯大数据处理平台)产品的老客户,从2016年开始将业务运行在TBDS。目前客户使用的是早期TBDS版本,与最新release版本在系统总体架构、组件版本等方面相差过大。因为客户需求越来越多,现在使用的老版本大数据集群因为功能较少,导致部分需求无法满足客户新增需求。由于历史遗留原因,老版本升级到新版本代价较高。考虑到客户的大数据集群规模不是很大(TB数据量...转载 2019-04-01 22:49:21 · 11023 阅读 · 1 评论 -
impala自定义udf函数
查看内置的函数:show functions in _impala_builtins;show functions in _impala_builtins like ‘subs‘;查看自定义函数:show functions自定义函数:[hadoop06.xqtravel.com:21000] > create function statistics_client(s...转载 2019-04-02 10:25:04 · 2536 阅读 · 0 评论 -
Storm与Spark Streaming比较
前言spark与hadoop的比较我就不多说了,除了对硬件的要求稍高,spark应该是完胜hadoop(Map/Reduce)的。storm与spark都可以用于流计算,但storm对应的场景是毫秒级的统计与计算,而spark(stream)对应的是秒级的。这是主要的差别。一般很少有对实时要求那么高的场景(哪怕是在电信领域),如果统计与计算的周期是秒级的话,spark的性能是要优于stor...转载 2019-04-08 07:20:26 · 281 阅读 · 0 评论 -
日志实时收集之FileBeat+Kafka
之前,我们的某一个业务用于实时日志收集处理的架构大概是这样的:在日志的产生端(LogServer服务器),都部署了FlumeAgent,实时监控产生的日志,然后发送至Kafka。经过观察,每一个FlumeAgent都占用了较大的系统资源(至少会占用一颗CPU 50%以上的资源)。而另外一个业务,LogServer压力大,CPU资源尤其紧张,如果要实时收集分析日志,那么就需要一个更轻量级、占...转载 2019-04-08 11:04:25 · 974 阅读 · 0 评论 -
HDFS运行原理
HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。是根据google发表的论文翻版的。论文为GFS(Google File System)Google 文件系统。HDFS有很多特点: ①保存多个副本,且提供容错机制,副本丢失或宕机自动恢复。默认存3份。 ②运行在廉价的机器上。 ③适合大数据的处理。多大?多小...转载 2019-04-02 16:43:19 · 600 阅读 · 0 评论 -
蚂蚁金服资深架构师解析Zeppelin不是飞艇
Zeppelin是一个高性能,高可用的分布式Key-Value存储平台,以高性能、大集群为目标,说平台是因为Zeppelin不是终点而是起点,在Zeppelin的基础上,不仅能够提供KV的访问,还可以通过简单的一层转换满足更复杂的协议需求。本文就将从背景,技术细节,回顾和未来计划几个方面来进行介绍。背景Zeppelin的故事首先从我们之前的一个项目Pika说起,Pika是一个完全兼容Red...转载 2019-04-12 14:21:41 · 378 阅读 · 0 评论 -
Hadoop命令行执行jar包详解(生成jar、将文件上传到dfs、执行命令、下载dfs文件至本地
https://blog.youkuaiyun.com/quiet_girl/article/details/74028204一、Eclipse中生成jar包使用[Eclipse中使用Hadoop单机模式开发配置及简单程序示例](http://blog.youkuaiyun.com/quiet_girl/article/details/74001759) 的MaxTemperature项目的代码,代码写完之后,将其打...转载 2019-04-14 14:43:55 · 2987 阅读 · 1 评论 -
大数据面试题
一、.hdfs写文件的步骤答案:(1)client向NameNode申请上传…/xxx.txt文件(2)NN向client响应可以上传文件(3)Client向NameNode申请DataNode(4)NN向Client返回DN1,DN2,DN3(5)Client向DN1,DN2,DN3申请建立文件传输通道(6)DN3,DN2,DN1依次响应连接(7)Client向D...转载 2019-03-23 12:44:50 · 264 阅读 · 0 评论 -
Hadoop:Hadoop基本命令
http://blog.youkuaiyun.com/pipisorry/article/details/51223877常用命令启用hadoopstart-dfs.shstart-hbase.sh停止hadoopstop-hbase.shstop-dfs.shNote:start-dfs.sh启动出错出错:Exception in thread "main" jav...转载 2019-03-29 21:25:48 · 388 阅读 · 0 评论 -
使用sbt构建spark 程序
今日在学习scala和spark相关的知识。之前在eclipse下编写了wordcount程序。但是关于导出jar包这块还是很困惑。于是学习sbt构建scala。关于sbt的介绍网上有很多的资料 参考:http://wiki.jikexueyuan.com/project/sbt-getting-started/install-sbt.html 关于linux下(centos)安装sb...转载 2018-07-19 15:35:12 · 673 阅读 · 0 评论 -
Hadoop中Namenode的HA查询和切换
三台小型hadoop集群,上星期公司机房停电了,这次上去start了集群,但是发现start之后无法工作了。查看了jps发现该有的进程都有了,敲入 hadoop fs -ls /报错内容如下:org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.ipc.StandbyException): Operation category...转载 2019-03-21 09:16:47 · 1919 阅读 · 0 评论 -
Namenode写Journalnode超时,导致Namenode挂掉
查看Namenode的状态,两台Namenode只剩下一台了,到挂的那台看日志2016-08-09 16:33:51,526 INFO org.apache.hadoop.hdfs.qjournal.client.QuorumJournalManager: Waited 6001 ms (timeout=20000 ms) for a response for sendEdits. Succ...转载 2019-03-21 09:24:41 · 2670 阅读 · 0 评论 -
shell get hadoop mapreduce task status
hadoop中用yarn命令,来获得job状态,包括job名称、完成百分比、当前状态等参数,其实和yarn的web界面查看到的数据一样使用yarn命令查看job状态:我们要做的就只剩下截取“Final-State”后的字段,即可判断程序运行的最终结果了。这里我们要使用awk命令进行解析:yarn application -status application_1468831...转载 2019-03-21 09:30:04 · 251 阅读 · 0 评论 -
Mahout学习(推荐部分的ItemCF、UserCF)
1、Mahout是什么?Mahout是一个算法库,集成了很多算法。ApacheMahout是ApacheSoftwareFoundation(ASF)旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout项目目前已经有了多个公共发行版本。Mahout包含许多实现,包括聚类、分类、推荐过滤、频繁子项挖掘。通过使...转载 2019-03-21 11:18:29 · 1025 阅读 · 0 评论 -
hadoop配置文件详解、安装及相关操作
一、Hadoop伪分布配置 1.在conf/hadoop-env.sh文件中增加:export JAVA_HOME=/home/Java/jdk1.6 2.在conf/core-site.xml文件中增加如下内容:<!--fs.default.name-这是一个描述集群中NameNode结点的URI(包括协议、主机名...转载 2019-03-21 13:24:15 · 357 阅读 · 0 评论 -
用Cloudera Manager API启停组件说明
CDH平台的使用过程中,部分用户会将Hadoop平台的管理功能(如:服务组件的启停操作等)集成到公司现有的平台中,本篇文章Fayson主要介绍如何通过Cloudera Manager API接口和curl命令远程的启动平台组件。测试环境1.CDH6.1.02Curl命令使用方式curl -X GET/POST/PUT/DELETE -u username:passwordht...转载 2019-03-21 15:05:26 · 1277 阅读 · 0 评论 -
CDH6.1中启用Kerberos
Fayson介绍了《0491-如何在Redhat7.4安装CDH6.1》,这里我们基于这个环境开始安装Kerberos。Kerberos是一个用于安全认证第三方协议,并不是Hadoop专用,你也可以将其用于其他系统,它采用了传统的共享密钥的方式,实现了在网络环境不一定保证安全的环境下,client和server之间的通信,适用于client/server模型,由MIT开发和实现。而使用Cloude...转载 2019-03-21 16:18:42 · 5753 阅读 · 3 评论 -
解决因block的损坏而导致hdfs启动后进入安全模式
问题描述: 单机伪分布式安装hadoop2.7.1,并在该机安装hive1.2.1。首先执行 sbin/start-dfs.sh 启动hdfs服务,然后执行hive,这时hive脚本启动报错,提示hdfs进入了安全模式,hive无法创建临时目录,出错信息如下:原因分析: 在hdfs的配置文件hdfs-default.xml中定义了这样两个属性: ...转载 2019-03-22 07:45:11 · 384 阅读 · 0 评论 -
Hadoop核心组件
1、Hadoop生态系统2、HDFS(Hadoop分布式文件系统)源自于Google的GFS论文,发表于2003年10月,HDFS是GFS克隆版。是Hadoop体系中数据存储管理的基础。它是一个高度容错的系统,能检测和应对硬件故障,用于在低成本的通用硬件上运行。HDFS简化了文件的一致性模型,通过流式数据访问,提供高吞吐量应用程序数据访问功能,适合带有大型数据集的应用程序。...转载 2019-04-19 08:11:20 · 382 阅读 · 0 评论