
Hadoop大数据入门
文章平均质量分 84
对大数据相关hadoop、spark、strom等框架进行介绍
pengjunlee
不学自知,不问自晓,古今行事,未之有也。
展开
-
解决Hbase启动后,hmaster会在几秒钟后自动关闭(停掉)!!!
兜兜转转,尝试了好多种方法,终于是好了,真的是没有度娘解决不了的问题!哈哈哈哈Step 1:在日志(身为小白白的我,一开始日志在哪我都不知道!路径:/usr/local/hadoop/app/hbase-0.98.8/logs/hbase-hadoop-master-Master.log(也就是安装hbase下的logs文件夹中))中寻找到错误的原因,如下图:Step 2:运行hbase org.apache.hadoop.hbase.util.hbck.OfflineMetaRepai.转载 2020-06-24 13:45:35 · 2634 阅读 · 0 评论 -
Hadoop3.2.1环境下安装HBase
环境准备Linux:CentOS Linux release 7.2.1511 (Core) # 使用 cat /etc/redhat-release 命令查看 JDK:jdk1.8.0_211 Hadoop:3.2.1 Zookeeper:3.4.14 HBase:1.4.13安装步骤# 将hbase安装包下载至 /usr/lcoal/src 目录cd /usr/local/srcwget http://archive.apache.org/dist/hbase/1.4.13/hb原创 2020-05-19 20:11:43 · 3889 阅读 · 0 评论 -
hbase-pheonix安装和基本使用
1.下载对应版本,cdh目前还没有pheonix啊,使用社区版吧,切记版本要对应上。否则会出现,问题:如下,Call failed on IOExceptionorg.apache.hadoop.hbase.DoNotRetryIOException: org.apache.hadoop.hbase.DoNotRetryIOException: SYSTEM.CATALOG: org.apache.hadoop.hbase.client.Scan.setRaw(Z)Lorg/apache/hadoo转载 2020-05-19 19:54:59 · 643 阅读 · 0 评论 -
数据可视化-Seaborn画图原来这么好看
matplotlib是python最常见的绘图包,强大之处不言而喻。然而在数据科学领域,可视化库-Seaborn也是重量级的存在。由于matplotlib比较底层,想要绘制漂亮的图非常麻烦,需要写大量的代码。Seaborn是在matplotlib基础上进行了高级API封装,图表装饰更加容易,你可以用更少的代码做出更美观的图。同时,Seaborn高度兼容了numy、pandas、scipy等...转载 2020-04-18 14:48:01 · 2737 阅读 · 0 评论 -
IDEA本地调试Map-Reduce程序
环境准备安装Hadoop访问 Hadoop官网 ,下载Hadoop到Windows本地 ,本例中下载的是 hadoop-3.0.0.tar.gz 。将 Hadoop 解压到合适的目录,并设置环境变量:HADOOP_HOME=C:\DevTolls\hadoop-3.0.0并在 Path 环境变量增加两项:%HADOOP_HOME%\bin;%HADOOP_HOME%\s...原创 2020-04-13 19:00:34 · 1330 阅读 · 0 评论 -
Apache开源列式存储引擎Parquet和ORC比较
相比传统的行式存储引擎,列式存储引擎具有更高的压缩比,更少的IO操作而备受青睐(注:列式存储不是万能高效的,很多场景下行式存储仍更加高效),尤其是在数据列(column)数很多,但每次操作仅针对若干列的情景,列式存储引擎的性价比更高。在互联网大数据应用场景下,大部分情况下,数据量很大且数据字段数目很多,但每次查询数据只针对其中的少数几行,这时候列式存储是极佳的选择,目前在开源实现中,最有名的...转载 2020-04-09 09:36:23 · 1050 阅读 · 0 评论 -
Scala简明教程
Scala简介Scala(Scalable Language)是一门多范式(multi-paradigm)的编程语言,设计初衷是要集成面向对象编程和函数式编程的各种特性。Scala特性面向对象Scala是一种纯面向对象的语言。函数式编程Scala也是一种函数式语言,其函数也能当成值来使用。Scala提供了轻量级的语法用以定义匿名函数,支持高阶函数,允许嵌套多层函数,并支持柯...原创 2020-04-05 11:58:22 · 543 阅读 · 0 评论 -
推荐系统介绍
当下,个性化推荐成了互联网产品的标配。但是,人们对推荐该如何来做,也就是推荐技术本身,还不甚了解。为此,好学的你肯定在收藏着朋友圈里流传的相关文章,转发着微博上的相关讨论话题,甚至还会不断奔走在各种大小行业会议之间,听着大厂职工们讲那些干货。我知道,这样碎片化的吸收,增加了知识的同时,也增加了焦虑。因为技术的不平等广泛存在于业界内,推荐系统也不例外。推荐系统从搜索引擎借鉴了不少技术和思想,比如内容...转载 2020-04-03 09:15:52 · 911 阅读 · 0 评论 -
Flink 原理与实现:Window 机制
Flink 认为 Batch 是 Streaming 的一个特例,所以 Flink 底层引擎是一个流式引擎,在上面实现了流处理和批处理。而窗口(window)就是从 Streaming 到 Batch 的一个桥梁。Flink 提供了非常完善的窗口机制,这是我认为的 Flink 最大的亮点之一(其他的亮点包括消息乱序处理,和 checkpoint 机制)。本文我们将介绍流式处理中的窗口概念,介绍 F...转载 2020-03-31 15:09:58 · 422 阅读 · 0 评论 -
Mac安装Flume
一 简介Flume 是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。Agent主要由:source,channel,sink三个组件组成:Source从数据发生器接收数据,并将接收的数据以Flume的eve...转载 2020-03-31 09:50:37 · 632 阅读 · 0 评论 -
Hbase的Rowkey设计原则
一、Hbase介绍HBase (Hadoop Database)是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式,主要用来存储非结构化和半结构化的松散数据(列存NoSQL数据库)二、设计原则 2.1Rowkey长度原则Rowkey是一个二进制码流,Row...转载 2020-03-31 09:08:34 · 663 阅读 · 0 评论 -
异常--Could not start ZK at requested port of 2181
HMaster和HRegionServer是Hbase的两个子进程,但是使用jps发现没有启动起来,所以去我们配置的logs查看错误信息。提示:Could not start ZK at requested port of 2181. ZK was started at port: 2182. Aborting as clients (e.g. shell) will not be abl...转载 2020-03-30 17:55:37 · 3136 阅读 · 2 评论 -
Hbase原理简介
HBase简介HBase是一个构建在HDFS上的、分布式的、面向列的开源数据库,它是Apache Hadoop生态系统中的重要一员。与mysql、oracle等关系型数据库RDBMS基于行模式的存储不同,HBase是基于列模式进行存储的,这使得它非常适合于存储海量非结构化或者半结构化的数据。通常HBase 需要构建在HDFS之上,并将其内部管理的数据文件全部存储在HDFS中。...原创 2020-03-29 22:00:42 · 484 阅读 · 0 评论 -
HBase 单机版安装及使用
HBase介绍HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBas...转载 2020-03-29 16:11:18 · 1291 阅读 · 0 评论 -
MapReduce原理简介
MapReduce的起源&简介MapReduce("Map(映射)"和"Reduce(归约))是一种编程模型,用于大规模数据集(大于1TB)的并行运算。它的核心思想来源于Google在2004年12月发表的一篇MapReduce论文:Our abstraction is inspired by the map and reduce primitives present in Lisp ...原创 2020-03-28 17:28:30 · 4299 阅读 · 0 评论 -
腾讯大数据之TDW计算引擎解析——Shuffle
腾讯分布式数据仓库(Tencent distributed Data Warehouse, 简称TDW)基于开源软件Hadoop和Hive进行构建,并且根据公司数据量大、计算复杂等特定情况进行了大量优化和改造,目前单集群最大规模达到5600台,每日作业数达到100多万,已经成为公司最大的离线数据处理平台。为了满足用户更加多样的计算需求,TDW也在向实时化方向发展,为用户提供更加高效、稳定、丰富的服...转载 2020-03-27 17:54:24 · 1279 阅读 · 0 评论 -
python 3 中文URL编码转换问题
#先引入模块from urllib.request import quote>>> ff = '摄像头'>>> ff = quote(ff)>>> ff'%E6%91%84%E5%83%8F%E5%A4%B4'>>> 解码是另一个模块from urllib import parse>>> a...转载 2020-03-26 17:03:42 · 878 阅读 · 0 评论 -
Mac下单机安装部署Hadoop3.2.1
环境准备修改主机名sudo scutil --set HostName localhostssh免密登录ssh-keygen -t rsa (一路回车直到完成)cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keyschmod og-wx ~/.ssh/authorized_keys设置完之后ssh loca...原创 2020-03-22 18:59:17 · 1260 阅读 · 0 评论 -
mac下编译hadoop3.0.*版本的native lib
编译好的hadoop3.0.2的native 见https://download.youkuaiyun.com/download/qq_14811559/10413344本人的hadoop版本为3.0.0,用3.0.2源码编译的也可以。一、问题mac安装hadoop3.0.0 后报错:WARN util.NativeCodeLoader: Unable to load native-hadoop...转载 2020-03-22 17:33:33 · 915 阅读 · 1 评论 -
Mac 系统下查看 Java 安装目录
最近在学习JVM,需要运行jdk自带的命令行,需要在特定jdk目录下进行,所以需要查看jdk安装目录,之前也查过,忘记了。这次记录下来为以后备用。1、打开终端,输入:/usr/libexec/java_home -V注意:输入命令参数区分大小写(-v是不对的,必须是-V)如图:3个红框内依次为:输入命令; 当前Mac已安装jdk目录; Mac默认使用的jdk版本;...转载 2020-03-22 17:14:24 · 9996 阅读 · 4 评论 -
protobuf-2.5.0.tar.gz的下载与安装
1.下载hadoop使用protocol buffer进行通信,需要下载和安装protobuf-2.5.0.tar.gz。由于现在protobuf-2.5.0.tar.gz已经无法在 官网中下载了,本人将 protobuf-2.5.0.tar.gz 上传到百度云盘供大家下载,地址:http://pan.baidu.com/s/1pJlZubT 。2.安装使用tar -...转载 2020-03-22 17:03:58 · 1042 阅读 · 0 评论 -
Mac终端提示Could not determine audit condition
原因:自己修改了系统变量结果:导致终端显示进程已完成错误信息:login: Could not determine audit condition [Process completed]解决方案:打开Finder(shift+Command+G)前往文件夹usr/bin/login文件夹,删除login文件。...转载 2020-03-22 15:09:10 · 593 阅读 · 0 评论 -
Mac权限问题,operation not permitted
一般情况下我们在使用mac系统过程中下载一些文件、新建一些项目之后,这些文件都会默认是只读状态,这时我们只需要简单的一句权限设置命令就可以解决sudo chmod -R 777 你要修改文件上层目录的路径但是我们在对 usr/bin 目录下的文件进行操作的时候往往会出现 operation not permitted ,这是因为一些mac用户在升级系统之后,电脑启用了SIP(System...转载 2020-03-22 14:33:05 · 5075 阅读 · 0 评论 -
HomeBrew 安装软件慢的解决方法
用原有的镜像下载非常慢 => ????替换源,更新速度变成 => ????第一步:更换仓库源homebrew 默认的源是在 github 上面,每次更新速度都会非常慢。所以我们更换成国内的镜像源。就会快很多了。cd "$(brew --repo)"git remote set-url origin https://mirrors.tuna.tsinghua.edu.cn/git...转载 2020-03-22 14:16:28 · 3420 阅读 · 0 评论 -
Homebrew国内如何自动安装(国内地址)
一、自动脚本(全部国内地址)(在Mac os终端中复制粘贴回车下面这句话)/bin/zsh -c "$(curl -fsSL https://gitee.com/cunkai/HomebrewCN/raw/master/Homebrew.sh)"成功的话,如上图所示。二、手动操作(自动脚本安装完,下面的不需要运行,两种操作方式而已)第一步:通过命令删除之前的brew、创建...转载 2020-03-22 14:13:01 · 1587 阅读 · 0 评论 -
Hadoop起源&简介
Hadoop简介百度百科是这样介绍Hadoop的:Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cos...原创 2020-02-12 14:04:52 · 2694 阅读 · 0 评论 -
数仓分层
数据仓库和数据仓库分层数据仓库的概念数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。数据仓库,并不是数据的最终目的地,而是为数据最终的目的地做好准备。这些准...转载 2020-03-09 16:46:31 · 2287 阅读 · 0 评论 -
scrapy高阶技巧+++FilesPipeline和ImagesPipeline(文件下载)
参考文章:https://blog.youkuaiyun.com/qq_43537354/article/details/88360636https://doc.scrapy.org/en/1.3/topics/media-pipeline.htmlFilesPipeline的工作流如下:在spider中爬取要下载的文件链接,将其放置于item中的file_urls(注意这只是一个代名词就像数...转载 2020-03-03 14:19:18 · 3243 阅读 · 0 评论 -
数据仓库搭建全过程解析--通俗易懂
经过多年来企业信息化建设,大部分企业都拥有了自己的财务,OA,CRM 等软件。这些系统都有自己的独立数据库,记录着企业运行情况某个方面的数据。但是单独看这些系统的报表,并不一定能对企业运行情况有全面客观的了解。就像只凭身高不能判断一个人是否健康,所以体检的时候我们需要化验许多指标,做各种检测,就是为了对身体情况有更全面的了解,作出更准确的判断。同样对一个企业,不能仅根据出勤率就判断一个人...转载 2020-03-02 17:10:59 · 4614 阅读 · 0 评论 -
YARN调度器(Scheduler)详解
2020,继续前行!转载 2020-01-20 09:27:27 · 1246 阅读 · 1 评论 -
CentOS7下Hadoop3.2.1集群的安装与部署(下)
在《CentOS7下Hadoop3.2.1集群的安装与部署(上)》中我们我们完成了对Hadoop集群的安装与启动。接下来,重点对HDFS和Yarn的HA配置进行介绍。HDFS高可用在上述Hadoop集群搭建完成之后,若要启用HA还需要对hdfs-site.xml和core-site.xml两个文件进行一点额外的配置。hdfs-site.xml<configuration&g...原创 2020-02-19 16:02:17 · 1299 阅读 · 0 评论 -
CentOS7下Hadoop3.2.1集群的安装与部署(上)
本篇文章将详细介绍如何在CentOS7服务器上安装并配置Hadoop3.2.1高可用集群。 Hadoop-HA集群的节点规划如下: IP Address Host Name Node Type User Name 172.16.250.234 DN1/JN1...原创 2020-02-18 11:08:04 · 2195 阅读 · 0 评论 -
CentOS7下Hadoop3.2.1的安装与部署(单机模式)
安装准备下载Hadoop安装包下载地址:https://www.apache.org/dyn/closer.cgi/hadoop/common本例中,我下载的是当前最新的稳定版本 hadoop-3.2.1.tar.gz 。下载JDK下载地址:https://www.oracle.com/technetwork/java/javase/downloads/index.html...原创 2020-02-13 09:03:57 · 7636 阅读 · 4 评论 -
浅谈数据分析和数据建模
大数据应用有几个方面,一个是效率提升,帮助企业提升数据处理效率,降低数据存储成本;另外一个是对业务作出指导,例如精准营销,反欺诈,风险管理以及业务提升。过去企业都是通过线下渠道接触客户,客户数据不全,只能利用财务数据进行业务运营分析,缺少围绕客户的个人数据,数据分析应用的领域集中在企业内部经营和财务分析。数字时代到来之后,企业经营的各个阶段都可以被记录下来,产品销售的各个环节也被记录下来,...转载 2019-11-26 15:43:02 · 7199 阅读 · 0 评论 -
那些年我们踩过的Hive坑
原文地址:https://blog.youkuaiyun.com/sunnyyoona/article/details/51648871 1. 缺少MySQL驱动包1.1 问题描述Caused by: org.datanucleus.store.rdbms.connectionpool.DatastoreDriverNotFoundException: The specified datasto...转载 2018-08-16 11:02:46 · 76740 阅读 · 0 评论 -
基于Zookeeper的ResourceManager-HA配置
前言在YARN中,Resource Manager(RM,资源管理器)负责整个系统的资源管理和调度,在2.4版本以前,它一直是整个YARN集群的单点故障。新的ResourceManager HA通过冗余一个Resource Manager形成一种Active/Standby的架构来避免ResourceManager的单点故障。 在ResourceManager ...原创 2018-08-15 21:18:18 · 47740 阅读 · 0 评论 -
基于Zookeeper的HDFS高可用配置
前言在 Hadoop 1.X版本中,NameNode是整个HDFS集群的单点故障(single point of failure,SPOF):每一个HDFS集群只能有一个NameNode节点,一旦NameNode所在服务器宕机或者出现故障将导致整个集群都不可用,除非重启或者开启一个新的Namenode集群才能够恢复可用。NameNode单点故障对HDFS集群的可用性产生影响主要表现在以下两...原创 2018-08-14 23:21:58 · 47767 阅读 · 0 评论 -
CentOS7.5下基于Hadoop2.9.1安装Hive 2.3.3
1.Hive简介Hive 是建立在 Hadoop 基础上的数据仓库处理工具,使用类SQL 的HiveQL 语言实现数据查询,所有Hive 的数据都存储在Hadoop 兼容的文件系统(例如,Amazon S3、HDFS)中。Hive 在加载数据过程中不会对数据进行任何的修改,只是将数据移动到HDFS 中Hive 设定的目录下,因此,Hive 不支持对数据的改写和添加,所有的数据都是在加载的时候确...原创 2018-08-12 16:50:42 · 97200 阅读 · 0 评论 -
CentOS7.5下搭建Hadoop2.9.1完全分布式集群
本篇文章主要对完全分布式Hadoop集群环境的安装与配置步骤进行介绍。 集群的节点规划信息如下:Host Name IP Address Node Type User Name hadoop34 172.16.250.234 DataNode / NodeManager / NameNode hadoop / root hado...原创 2018-08-11 19:19:14 · 116177 阅读 · 10 评论 -
Hadoop技术之Hadoop HA 机制详解
原文地址:https://www.cnblogs.com/qcloud1001/p/7693476.html导语最近分享过一次关于Hadoop技术主题的演讲,由于接触时间不长,很多技术细节认识不够,也没讲清楚,作为一个技术人员,本着追根溯源的精神,还是有必要吃透,也为自己的工作沉淀一些经验总结。网上关于Hadoop HA的资料多集中于怎么搭建HA,对于HA为什么要这么做描述甚少,所以本文对...转载 2018-08-11 09:12:22 · 54573 阅读 · 3 评论