
hadoop
文章平均质量分 83
阿泽财商会
作品主页https://mbd.pub/o/m/azcsh,高级人工智能算法训练工程师,人工智能应用工程师,高级工程师,高级信息系统项目管理师,软件设计师,CSM敏捷教练,csdn20周年直播嘉宾,高级健康管理师,会计师。
清华大学出版社《MongoDB游记》数据库教程书作者。专注于人工智能,数据挖掘技术与大数据,云计算与存储等技术的学习与研究。擅长人工智能算法训练,系统响应式开发、数据采集数据清洗和数据分析,分布式云存储运算等技术。熟悉后台系统、云存储计算平台的搭建,擅长解决架构过程中遇到的疑难问题。常用开发语言:java、python、c#、perl、sql。
展开
-
Hadoop积累---Hadoop判断job和map的开始和结束(带源码)
命令行工具:使用和等命令查询Job和Map任务的状态。Web UI:访问JobTracker/ResourceManager的Web界面查看Job和Map任务的进度。API:在应用程序中使用Hadoop API监控Job和Map任务的状态。日志文件:查看Hadoop生成的日志文件以获取Job和Map任务的状态。监控工具:使用第三方监控工具提供更详细的监控信息。通过这些方法,你可以有效地监控Hadoop中的Job和Map任务的开始和结束。原创 2024-11-11 00:11:25 · 505 阅读 · 0 评论 -
hadoop基础----hadoop实战(十四)-----hadoop管理工具---CDH移除主机
注意事项在CDH的Hadoop集群中提供有主机解除授权和将节点移除集群的操作正常情况下节点的解除授权不会导致blocks丢失的情况,但是在某些特殊场景中还是会出现小量blocks的丢失。比如:1、同时下线的节点数量太多,如果副本数为3,建议最多同时停用2个DataNode进行下线操作,等待下线完成后,进行副本检查没有问题后再下线其他节点 ----也就是说 至少保留一个DataNode2、...原创 2020-01-17 15:15:38 · 1803 阅读 · 0 评论 -
hadoop案例(一)--hive--2T数据动态创建分区
我们在使用hadoop集群过程中,发现网上很少有具体的数据使用分析案例,也就是说 我们不知道多少个节点处理多少大小的数据量耗费多少时间是合理的哪些是需要优化的。为了增加这方面的相关经验,我们会记录一下实际的使用案例。以供大家参考。配置如图: 耗费时间如图: 执行语句set hive.exec.dynamic.partition=true;set hive.exe...原创 2018-03-03 11:35:30 · 928 阅读 · 0 评论 -
调研----小米架构师:亿级大数据实时分析与工具选型
讲师介绍 欧阳辰,超过15年的软件开发和设计经验,目前就职于小米公司,负责小米广告平台的架构研发。曾为微软公司工作10年,担任高级软件开发主管,领导团队参与微软搜索索引和搜索广告平台的研发工作。曾在甲骨文公司从事数据库和应用服务器的研发工作。热爱架构设计和高可用性系统,特别对于大规模互联网软件的开发,具有丰富的理论知识和实践经验。大家好,很高兴能跟大家分享一些关于实时数据分析的话题。...转载 2018-02-22 19:03:00 · 5567 阅读 · 1 评论 -
用户行为服务系统架构调研----电信用户行为分析系统架构
2基于云计算的系统总体设计方案 2.1系统总体技术架构 本文设计的移动互联网用户行为分析引擎通过云计算技术实现分布式并发的大规模计算能力,构建移动互联网端到端的大数据挖掘分析系统,实现对DPI和应用平台用户上网行为的偏好分析,提供个性化推荐服务,打通从数据采集、分析到服务提供、营销执行的全过程。 系统通过FTP服务器获取数据,在接口层采用分布式计算与批量处理相结合的方式,将大数据...转载 2018-02-22 17:43:30 · 7071 阅读 · 0 评论 -
用户行为服务系统架构调研----携程实时用户行为服务系统架构实践
携程实时用户行为服务作为基础服务,目前普遍应用在多个场景中,比如猜你喜欢(携程的推荐系统)、动态广告、用户画像、浏览历史等等。 以猜你喜欢为例,猜你喜欢为应用内用户提供潜在选项,提高成交效率。旅行是一项综合性的需求,用户往往需要不止一个产品。作为一站式的旅游服务平台,跨业务线的推荐,特别是实时推荐,能实际满足用户的需求,因此在上游提供打通各业务线之间的用户行为数据有很大的必要性。 携程原有的实...转载 2018-02-22 11:33:06 · 1532 阅读 · 0 评论 -
大数据学习路线攻略
经常有初学者在博客和QQ问我,自己想往大数据方向发展,该学哪些技术,学习路线是什么样的,觉得大数据很火,就业很好,薪资很高。如果自己很迷茫,为了这些原因想往大数据方向发展,也可以,那么我就想问一下,你的专业是什么,对于计算机/软件,你的兴趣是什么?是计算机专业,对操作系统、硬件、网络、服务器感兴趣?是软件专业,对软件开发、编程、写代码感兴趣?还是数学、统计学专业,对数据和数字特别感兴趣。其实这...转载 2018-02-22 11:18:54 · 5000 阅读 · 1 评论 -
hadoop基础----hadoop实战(十二)-----Hadoop配置修改和配置文件同步脚本
我们在hadoop使用过程中经常会有需要调整配置的时候Hadoop配置修改有两个方式后台修改通过管理后台直接修改的配置会自动修改所有集群机子的配置。而且会提醒是否需要重启哪些服务。 如下:手动修改如果是手动修改的话,需要知道配置文件存放的路径,CDH安装的可以参考文章: hadoop基础—-hadoop实战(十一)—–hadoop管理工具—CDH的目录结构了解例如 ...原创 2018-02-28 16:01:51 · 2597 阅读 · 1 评论 -
hadoop基础----hadoop实战(二)-----hadoop操作hdfs---hdfs文件系统常用命令
我们在前面已经介绍过了 hadoop 1.0是由2大部分组成的:hdfs + mapreduce也对hdfs做了相关介绍。hadoop基础----hadoop理论(三)-----hadoop分布式文件系统HDFS详解因为上一章我们已经安装好了hadoop1.0的环境hadoop基础----hadoop实战(一)-----hadoop环境安装---手动安装官方1.0版本本章就来尝试实际操作 hdfs原创 2016-08-18 20:48:47 · 7048 阅读 · 4 评论 -
hadoop基础----hadoop实战(十一)-----hadoop管理工具---CDH的目录结构了解
我们在进行hadoop和hive集群的使用和操作时经常需要获取hadoop和hive的版本以及从服务器上获取它们的相关jar包,才能保证驱动一致运行正常。但是我们发现使用CDH安装的hadoop和hive集群找不到它们的相关jar包,因为CDH安装集群的过程对我们来说是透明的。 (透明:在计算机中,客观存在并且运行着但是我们看不到的特性。)针对这种情况,对CDH的目录结构进行了解就非常重...原创 2018-01-12 16:53:18 · 4383 阅读 · 0 评论 -
hadoop进阶---hadoop性能优化(一)---hdfs空间不足的管理优化
Hadoop 空间不足,hive首先就会没法跑了,进度始终是0%。将HDFS备份数降低将默认的备份数3设置为2。 步骤:CDH–>HDFS–>配置–>搜索dfs.replication–>设置为2 删除无用HDFS数据和Hbase表格主要使用命令hadoop fs -du,hadoop fs -ls,hadoop fs -rm 空间不足根本的解决...原创 2018-03-03 12:35:17 · 9522 阅读 · 2 评论 -
遇到问题---CDH重启namenode--Command timed-out after 150 seconds--角色正在启动
情况我们由于某些配置参数的调整 有时候需要重启namenode。最方便的操作就是在CM后台直接操作–重新启动。但是这次遇到的情况比较诡异,点击重启之后 namenode的状态变成了 已停止。再次去点击重新启动则报错:Command aborted because of exception:Command timed-out after 150 seconds角色正在启动...原创 2018-03-04 19:33:59 · 8357 阅读 · 0 评论 -
数据可视化(六)----Pentaho Report Design案例二---连接hive
转载请注明出处:数据可视化(六)----Pentaho Report Design案例二—连接hive本文记录如何使用hive的作为数据源创建报表。官网参考链接:https://wiki.pentaho.com/display/BAD/Reporting+on+Hive+Data环境准备在创建报表前需要具备以下环境:HadoopPentaho Data IntegrationHiv...翻译 2019-02-04 17:22:43 · 1426 阅读 · 0 评论 -
hadoop基础----hadoop实战(十三)-----hadoop管理工具---断电后重启CDH集群步骤
我们在CDH集群运维过程中,偶尔会遇到机房突然断电的情况,我们来梳理下遇到机房断电之后的CDH集群恢复步骤,以免无从下手。在调试CDH集群之前,肯定需要先重启好服务器,以及确保他们的网络畅通。下面记录恢复CDH集群的步骤:首先需要启动CDH的server服务,并查看状态sudo /etc/init.d/cloudera-scm-server startsudo /etc/init.d/cloude原创 2018-05-02 18:24:53 · 4692 阅读 · 2 评论 -
遇到的问题--java连接hbase的thrift2报错readtimeout
遇到问题java连接hbase的thrift2报错readtimeout原因分析java连接hbase的thrift2报错readtimeout原因有多种, 一是排除网络和防火墙问题 二是检测thrift2服务是否正常或者假死 三是thrift2跟hbase集群交互的之间有问题使用命令排查网络问题ping 192.168.30.252使用命令排查防火墙问题...原创 2018-04-23 19:34:37 · 2587 阅读 · 0 评论 -
遇到问题---hadoop--Remote App Log Directory does not have same value for the 4 NodeManagers
情况因为我们的某台服务器空间不足,暂时清理不出来,所以需要修改一些存放数据的日志目录等。修改完毕之后发现报错错误的配置 Remote App Log Directory does not have same value for the 4 NodeManagers。原因一般来说 不同的主机不要求配置的目录一致,但是yarn.nodemanager.remote-app-log...原创 2018-03-27 11:37:22 · 636 阅读 · 0 评论 -
遇到问题--hadoop---节点服务重启成功一段时间后又停止
情况我们发现CDH中一个hbase的regionServer节点经常自动停止,没有明显的错误信息。重启后又过一小段时间又自动停止原因这种情况一般都是需要排查相关服务的日志的,比如我们是regionServer节点的服务,则需要先看regionServer节点的日志。很幸运的是 原因很快就找到了。一进入日志界面就报错找不到日志文件路径。一般这种情况有可能是读写权限...原创 2018-03-20 10:32:35 · 867 阅读 · 0 评论 -
遇到问题--hadoop--DiskErrorException:Could not find any valid local directory for
情况我们在运行importTsv命令时执行mapreduce,在output阶段报错org.apache.hadoop.util.DiskChecker$DiskErrorException:Could not find any valid local directory for。完整报错如下:2018-03-22 10:34:12,001 INFO [LocalJobRunne...原创 2018-03-23 14:11:16 · 2980 阅读 · 0 评论 -
遇到问题--hadoop---cdh--SERVICE_MONITOR_LOG_DIRECTORY_FREE_SPACE has become bad
情况一开始安装CDHservice服务的的节点报警告如下The health test result for SERVICE_MONITOR_LOG_DIRECTORY_FREE_SPACE has become bad: This role's Log Directory is on a filesystem with less than 5.0 GiB of its space f...原创 2018-03-22 14:46:46 · 3155 阅读 · 0 评论 -
唯品会海量实时OLAP分析技术升级之路
讲师介绍谢麟炯,唯品会大数据平台高级技术架构经理,主要负责大数据自助多维分析平台,离线数据开发平台及分析引擎团队的开发和管理工作,加入唯品会以来还曾负责流量基础数据的采集和数据仓库建设以及移动流量分析等数据产品的工作。 海量数据实时OLAP场景的困境大数据首先来看一下我们在最初几年遇到的问题。第一就是大数据,听起来好像蛮无聊的,但大数据到底是指什么呢?最主要的问题就是...转载 2017-11-03 15:20:28 · 3657 阅读 · 0 评论 -
阿里云大数据三次技术突围:Greenplum、Hadoop和飞天
对于企业来说,到底什么是云计算?相信很多企业都有这样的困惑,让我们一起回到这个原始的起点探讨究竟什么是云计算?云计算对于企业而言到底意味什么? 云计算的三条发展路径及三种落地形态 当回到最初的起点再审视云计算的发展路径,可以发现,经过十余年的发展演进,云计算有三条发展路径,并且最终沉淀下来了三种落地形态。 第一条路:源自于谷歌对大规模数据的处理,谷歌为全球的互联网用户提供同一个服...转载 2017-11-03 14:26:21 · 11284 阅读 · 0 评论 -
hadoop基础----hadoop理论(二)-----hadoop学习路线(持续更新)
记录hadoop学习到运用实战的整个攻略以及学习的知识点顺序1.虚拟机hadoop的环境是Linux,所以我们还需要安装Linux系统。hadoop,有单机安装,伪分布安装和分布安装。对单机模式大家可以不用去关心和学习,因为hadoop的单机模式就失去了它分布式的优势,也就没有意义了。在学习中建议搭建伪分布式,完全分布式是生产环境中使用,当大家把伪分布式学习后,必须对完全分布式有所原创 2015-02-04 15:56:20 · 5495 阅读 · 2 评论 -
hadoop基础----hadoop实战(三)-----hadoop运行MapReduce---对单词进行统计--经典的自带例子wordcount
ass原创 2016-08-29 16:04:51 · 6148 阅读 · 2 评论 -
hadoop基础----hadoop实战(零)-----hadoop的平台版本选择
生产环境中,hadoop的平台版本选择是一个公司架构之时,很重要的一个考虑因素。hadoop的平台选择因为hadoop是开源的,所以经过这么多年的发展,已经有更多的分支版本。也有很多公司专门发行了相关版本以及管理工具,甚至对mapreduce等的编写进行了封装形成了套件,实现了配置化的更方便的使用hadoop。学习使用hadoop之前我们应该对hadoop的版本平台有足够的了解,才能更好的作出选择原创 2016-06-12 18:03:49 · 16942 阅读 · 1 评论 -
hadoop基础------虚拟机(二)---虚拟机安装以及安装linux系统
虚拟机下载安装上一篇 我们介绍了什么是虚拟机hadoop基础虚拟机第一篇---虚拟机简介也知道了现在流行的虚拟机有VMware(VMWare ACE)、Virtual Box和Virtual PC它们的安装操作都差不多,我们以VMware11.0为例进行下载安装并安装操作系统。 VMware11.0下载地址:官网下载https://my.vmware.co...原创 2015-02-07 14:34:43 · 13780 阅读 · 3 评论 -
hadoop基础------虚拟机(四)-----VMware虚拟机下linux系统的图形界面和命令行文本界面的切换
1.临时切换:ctrl+alt+1 …… ctrl+alt+6一共六个控制台。2.永久关闭图形化:在root下输入 vi /etc/inittab 将init:5修改为init:3 :wq保存 退出再reboot一下 以后就直接用shell 不用图形化Fn默认是指F1到F6,F7就是图形界面,如果想开机进入文本模式的话修改 /e原创 2013-09-29 10:53:38 · 6849 阅读 · 1 评论 -
hadoop基础----hadoop理论(三)-----hadoop分布式文件系统HDFS详解
我们在前面已经为学习hadoop做了一些准备和初步了解:虚拟机java基础和实战linux基础和shell编程hadoop基础----hadoop理论(一)----Hadoop简介hadoop基础----hadoop理论(二)-----hadoop学习路线(持续更新)我们已经知道Hadoop=HDFS(文件系统,数据存储技术相关)+ Mapreduce(数据原创 2016-03-03 20:04:37 · 10467 阅读 · 7 评论 -
hadoop基础----hadoop理论(四)-----hadoop分布式并行计算模型MapReduce详解
mapreduce原创 2016-03-29 16:52:34 · 9190 阅读 · 3 评论 -
hadoop基础----hadoop理论(一)----Hadoop简介
hadoop是什么?(1)Hadoop就是一个分布式计算的解决方案,也就是帮助我们把 一个任务分到很多台计算机来运算。(2)Hadoop是一个开源的框架,可编写和运行分布式应用处理大规模数据,是专为离线和大规模数据分析而设计的,并不适合那种对几个记录随机读写的在线事务处理模式。Hadoop=HDFS(文件系统,数据存储技术相关)+ Mapreduce(数据处理)Hadoop的数原创 2015-02-03 16:46:14 · 6547 阅读 · 4 评论 -
hadoop基础----hadoop实战(一)-----hadoop环境安装---手动安装官方1.0版本
前面我们已经了解了有关于hadoop的相关原理hadoop基础----hadoop理论(一)----Hadoop简介hadoop基础----hadoop理论(二)-----hadoop学习路线(持续更新)hadoop基础----hadoop理论(三)-----hadoop分布式文件系统HDFS详解hadoop基础----hadoop理论(四)-----hadoop分布式并行计算模型MapReduc原创 2016-07-27 22:05:01 · 9592 阅读 · 3 评论 -
hadoop基础----hadoop实战(四)-----myeclipse开发MapReduce---myeclipse搭建hadoop开发环境并运行wordcount
我们在上一章已经尝试了在在hadoop中运行MapReduce。hadoop基础----hadoop实战(三)-----hadoop运行MapReduce---对单词进行统计--经典的自带例子wordcount其实hadoop学习可以分成2部分,一部分是hadoop的运维性能优化,一部分就是hadoop开发----写MapReduce。本章我们尝试正常的开发流程----用myeclipse写wor原创 2016-09-18 19:51:33 · 9285 阅读 · 2 评论 -
hadoop基础----hadoop实战(五)-----myeclipse开发MapReduce---WordCount例子---解析MapReduce的写法
我们在上一章节已经了解了怎样在myeclipse中开发运行MapReducehadoop基础----hadoop实战(四)-----myeclipse开发MapReduce---myeclipse搭建hadoop开发环境并运行wordcount也在很早的章节中了解了MapReduce的原理hadoop基础----hadoop理论(四)-----hadoop分布式并行计算模型MapReduce详解目原创 2016-09-19 18:05:07 · 3527 阅读 · 0 评论 -
遇到问题---Hadoop---java.io.IOException: NameNode is not formatted
之前关闭了所以的机子,用./start-all.sh 重启之后jps检查发现namenode没有启动起来。如图:少了namenode。这时候用下面的命令去查看master机子的启动日志:cd /home/joe/hadoop/hadoop-1.2.1/libexec/../logs lstail -f -n 800 hadoop-joe-namenode-hadoop0.log发现出现了jav原创 2016-09-06 12:12:19 · 17688 阅读 · 0 评论 -
遇到问题---Hadoop---java.io.IOException: Incompatible namespaceIDs
现象我们前面做完了namenode format之后,用./start-all.sh 重启之后jps检查发现slave机子的datanode没有启动起来。如图:少了datanode。进入日志路径查看日志 cd /home/joe/hadoop/hadoop-1.2.1/libexec/../logs ls tail -f -n 800 hadoop-joe-datanode-hadoop1.l原创 2016-09-06 19:31:54 · 1349 阅读 · 0 评论 -
hadoop基础----hadoop实战(七)-----hadoop管理工具---使用Cloudera Manager安装Hadoop---Cloudera Manager和CDH5.8离线安装
hadoop基础----hadoop实战(六)-----hadoop管理工具---Cloudera Manager---CDH介绍简介我们在上篇文章中已经了解了CDH,为了后续的学习,我们本章就来安装CDH5.8。CDH5.8是目前比较新的版本,自带hadoop2.0以上的hadoop,而且已经包含了很多组件,也是我们接下来需要学习的hadoop生态圈中的组件。环境Cloudera Manager原创 2016-11-29 18:23:11 · 11607 阅读 · 3 评论 -
hadoop进阶----hadoop经验(一)-----生产环境hadoop部署在超大内存服务器的虚拟机集群上vs几个内存较小的物理机
生产环境 hadoop部署在超大内存服务器的虚拟机集群上 好 还是 几个内存较小的物理机上好?虚拟机集群优点但是虚拟化会带来一些其他方面的功能。资源隔离。有些集群是专用的,比如给你三台设备只跑一个spark,那还算Ok。但在很多规模很小的团体中,在有限的硬件设备的情况下,又要跑spark,比如又要跑zookeeper、kafka等等,这个时候,我们希望它们之间是不会互相干扰的。假设你spark的原创 2017-02-06 18:29:08 · 7881 阅读 · 2 评论 -
大数据框架对比:Hadoop、Storm、Samza、Spark和Flink
今天看到一篇讲得比较清晰的框架对比,这几个框架的选择对于初学分布式运算的人来说确实有点迷茫,相信看完这篇文章之后应该能有所收获。简介大数据是收集、整理、处理大容量数据集,并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限,但这种计算类型的普遍性、规模,以及价值在最近几年才经历了大规模扩展。在之前的文章中,我们曾经介绍过有关大数据系统的常规概念、转载 2016-11-22 16:35:17 · 7667 阅读 · 0 评论 -
hadoop基础-------虚拟机(三)-----VMware虚拟机下linux系统的与windows主机实现复制粘贴
vmware虚拟机安装了linux系统之后,为了实现更加强大的功能,比如说直接从windows主机拖文件进入linux,以及加强linux的性能,或者实现文本的复制粘贴,我们一般都要安装vmware tools。 vmware tools是虚拟机VMware Workstation自带的一款工具,它的作用就是使用户可以从物理主机直接往虚拟机里面拖文件。如果不安装它,我们是无法进原创 2016-01-14 18:46:45 · 4050 阅读 · 2 评论 -
hadoop基础----hadoop实战(九)-----hadoop管理工具---CDH的错误排查(持续更新)
啊解决红色警报时钟偏差这是因为我们的NTP服务不起作用导致的,几台机子之间有几秒钟的时间偏差。这种情况下一是把NTP重新整理配置一下。一种是在操作里调整报警误差范围。因为NTP的时间同步是平滑同步,不是跳跃式同步,如果设置得不好的话,很难校验出它同步成功了没,总感觉会缺少几秒钟的感觉。有一种解决方法是 我们这里不用NTP的自动同步,而是使用crond每分钟ntpdate 跳跃式同步一次。这种方法原创 2016-11-29 18:17:38 · 19692 阅读 · 14 评论 -
hadoop基础----hadoop实战(六)-----hadoop管理工具---Cloudera Manager---CDH介绍
我们在之前的文章中已经初步介绍了Cloudera。hadoop基础----hadoop实战(零)-----hadoop的平台版本选择从版本选择这篇文章中我们了解到除了hadoop官方版本外很多公司都对hadoop进行了改版发布,其中Cloudera就是其中最成型的发行版本,并且配备了相应的管理工具。本篇文章我们就来学习Cloudera的相关知识。什么是CDHCloudera's Distribut原创 2016-10-28 11:55:16 · 6716 阅读 · 1 评论