
大数据hadoop
文章平均质量分 76
留歌留歌
只要最后那个人是你,晚一点也没关系
展开
-
Sqoop 浅入浅出
Sqoop一个在Hadoop和关系型数据库之间高效传输数据的工具最新稳定版1.4.7(Sqoop2不建议生产使用)已经从Apache毕业本质其实只是一个命令行工具生产中基本都是 在拼接Sqoop命令完成数据的导入导出底层工作机制:导入导出 在底层实际被翻译为MapReduce程序来实现,主要是对MR的 InputFormat 和 OutputFormat 进行定制学习前提:linux常用命令 RDBMS基操 Hadoop用途和基操安装Sqoop后续的jar包都放在lib目录即可一、sq原创 2022-02-21 18:34:50 · 923 阅读 · 0 评论 -
Hadoop 集成Snappy 全流程记录 提供依赖组件 【MAC 躺坑记录】
写在前面之前我在本地创键Hive表的时候一般都是以textFile格式进行存储的,最近玩的一些大表确实占用空间的,就想着Parquet格式存储+Snappy压缩来实现数据的存取。殊不知,Caused by: java.lang.UnsatisfiedLinkError: no snappyjava in java.library.path于是我检查了下本地环境:➜ ~ hadoop checknative20/12/20 12:00:33 WARN util.NativeCodeLoader:原创 2020-12-20 17:21:55 · 749 阅读 · 1 评论 -
Hive内部表外部表区别及各自使用场景 【 附录:常规DDL样例】
写在前面ps:干货很多…我们都知道,Hive基本上就是内部表和外部表两种类型,在面试的时候,常会问到这种题目:1.hive内部表和外部表的区别2.什么时候使用内部表,什么时候使用外部表来自官网的定义:Managed tablesA managed table is stored under the hive.metastore.warehouse.dir path property, by default in a folder path similar to /user/hive/wareh原创 2020-12-20 15:33:20 · 2122 阅读 · 0 评论 -
Yarn的监控
写在前面这是群里的一个小伙伴抛出的一个问题,因为确实我所了解的,很多小伙伴公司都是将作业跑在Yarn上的。那么这就是大家都会要做的一个 需求了吧。我所预期的,最好是能配一个图形展示的+报警功能。未完待续。。。...原创 2020-03-23 20:54:16 · 700 阅读 · 1 评论 -
安装Cloudera Manager 和 CDH
欢迎使⽤Cloudera Manager–最终⽤户许可条款与条件。勾选欢迎使⽤Cloudera Manager–您想要部署哪个版本?选择Cloudera Express免费版本感谢您选择Cloudera Manager和CDH为CDH集群安装指导主机。选择[当前管理的主机],全部勾选选择存储库集群安装–正在安装选定Parcel假如本地parcel离线源配置正确,则"下载"...原创 2020-01-10 16:56:29 · 188 阅读 · 0 评论 -
调度平台Rundeck + 配置邮件告警
写在前面常用的调度平台:crontab/azkaban/rundeck/xxl_job/oozie…这些是比较常用的一些调度工具,选择合适自己的即可。Rundeck官网:https://www.rundeck.com/open-sourceGitHub地址: https://github.com/rundeck/rundeck部署安装:前置条件:安装好JDK:比较简单,下载解压,...原创 2019-12-30 17:36:44 · 555 阅读 · 0 评论 -
Flume自定义Interceptor
有的时候我们想要对Source的数据做自定义的一些修改操作。我们主要是通过实现Interceptor 接口来达到我们的目的。第一步:我们先使用IDEA创建一个空的maven项目,然后添加一个flume依赖即可。 <dependencies> <dependency> <groupId>org.apache.f...原创 2019-11-20 17:57:52 · 267 阅读 · 0 评论 -
希望一个数据同步,包治百病
写在前面数据同步 是一个脏活,而且是个高风险的活大多数情况下,应用架构设计不好,引入什么新存储,引入什么DDD,治标不治本,都是扯淡。但万一灵验呢?这就是数据同步的需求基础。且看下面需求场景。应用场景业务数据发展到一定水平,需要将大部分冷热数据从熟悉的DB迁移到其他存储进行复杂查询和分析分库分表后,某些报表类查询无法工作,需要汇总到单库表进行操作分库分表有多个维度,需要拷...转载 2019-11-12 17:18:00 · 217 阅读 · 0 评论 -
初探数据平台
1.Yarn 上面有哪几种资源调度策略?并且如何配置?Hadoop规模来看计算资源管理1)Yarn 动态资源2)Spark on Yarn 静态资源调度 动态资源调度Spark 作业一般跑在集群资源好的机器上,一般好的集群会打标签进行区分:例如spark001 hadoop001机器名3)Spark Job 每次触发一个Action 会产启动一个Job运行。 如果跑几次失败,...原创 2019-10-29 21:54:30 · 194 阅读 · 0 评论 -
死磕Zeppelin~01 【编译安装】
1 Zeppelin 介绍基于 Web网页 进行 交互式的数据分析 的笔记本,有数据可视化功能。支持多种语言,比如SQL,Scala等等zeppelin —> 相当于一个paltform:可插拔式的安装各个环境、组件进行数据分析2 zeppelin主要模块:2.1.zeppelin-server:项目入口,通过Jetty 【web 服务器】内嵌的服务 提供的WebSocket和R...原创 2019-10-29 20:56:39 · 479 阅读 · 0 评论 -
HBase 基本操作
/** * 基本操作: * hbase shell 进入hbase console命令 * whoami 查用户 * help查看基本命令集合 * help command 查看命令帮助 * list看库中所有表 ...原创 2019-08-17 16:29:34 · 223 阅读 · 0 评论 -
Spark大数据相关经典面试题总结 【一直更新...】
想问一个问题:Spark Streaming 如何保证有序消费 kafka数据?topic多分区如果是全局有序 kafka只有在单partition才生效,多partitions不支持全局有序,或者比较难;如果是局部有序 可以利用 相同的key映射到同一个partition的特点 保证 key内有序,例如:指定key(比如order id),具有同1个key的所有消息,会发往同1个pa...原创 2019-08-14 11:46:42 · 894 阅读 · 0 评论 -
Nginx=>Flume=>Kafka 流程总结
nginx=&amp;amp;gt;flume=&amp;amp;gt;kafka编写flume 日志收集文件nginx日志access.log====&amp;amp;gt;flumea1.sources = r1a1.sinks = k1a1.channels = c1a1.sources.r1.type = execa1.sources.r1.command = tail -F /root/logs/a原创 2018-11-06 17:48:40 · 827 阅读 · 0 评论 -
Hbase安装与简单使用
Hbase安装wget http://archive-primary.cloudera.com/cdh5/cdh/5/hbase-1.2.0-cdh5.7.0.tar.gz导出到系统环境变量export HBASE_HOME=////export PATH=$HBASE_HOME/bin:$PATH修改配置vim conf/hbase-env.sh# 导出JAVA...原创 2018-11-06 17:38:16 · 932 阅读 · 0 评论 -
Hive安装与简单使用并集成SparkSQL
Hive环境搭建hive下载:http://archive-primary.cloudera.com/cdh5/cdh/5/hive-1.1.0-cdh5.7.0.tar.gzwget http://archive-primary.cloudera.com/cdh5/cdh/5/hive-1.1.0-cdh5.7.0.tar.gz解压tar -zxvf hive-1.1.0-cdh...原创 2018-10-30 20:38:48 · 556 阅读 · 0 评论 -
Hadoop核心组件之MapReduce
MapReduce概述Google MapReduce的克隆版本优点:海量数据的离线处理,易开发,易运行缺点:实时流式计算Hadoop MapReduce是一个软件框架,用于轻松编写应用程序,以可靠,容错的方式在大型集群(数千个节点)的商用硬件上并行处理大量数据(多TB数据集)MapReduce编程模型思想:分而治之MapReduce作业通常将输入数据集拆分为独立的块,这些块由m...原创 2018-10-17 17:24:12 · 534 阅读 · 0 评论 -
简洁搭建hadoop伪分布式文件系统
Hadoop伪分布式搭建之前我有发布一篇在腾讯云上搭建hadoop伪分布式文件系统的博客,最后,简化简化再简化,整理出了所有的关键步骤。不能再简化啦->!!<-,希望能够帮到您1.安装ssh(免登陆)yum install sshssh-keygen -t rsacp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys 2. jd...原创 2017-10-26 18:40:41 · 781 阅读 · 3 评论 -
Flume系列二之案例实战
Flume案例实战写在前面 通过前面一篇文章http://blog.youkuaiyun.com/liuge36/article/details/78589505的介绍我们已经知道flume到底是什么?flume可以用来做什么?但是,具体怎么做,这就是我们这篇文章想要介绍的。话不多说,直接来案例学习。实战一:实现官网的第一个简单的小案例-从指定端口采集数据输出到控制台如何开始呢? 看官网!!!!原创 2017-11-21 14:02:57 · 1555 阅读 · 0 评论 -
Flume和Kafka完成实时数据的采集
Flume和Kafka完成实时数据的采集写在前面 Flume和Kafka在生产环境中,一般都是结合起来使用的。可以使用它们两者结合起来收集实时产生日志信息,这一点是很重要的。如果,你不了解flume和kafka,你可以先查看我写的关于那两部分的知识。再来学习,这部分的操作,也是可以的。实时数据的采集,就面临一个问题。我们的实时数据源,怎么产生呢?因为我们可能想直接获取实时的数据流不是那么的原创 2017-11-21 22:32:00 · 7901 阅读 · 0 评论 -
Flume系列一之架构介绍和安装
Flume架构介绍和安装写在前面 在学习一门新的技术之前,我们得知道了解这个东西有什么用?我们可以使用它来做些什么呢?简单来说,flume是大数据日志分析中不能缺少的一个组件,既可以使用在流处理中,也可以使用在数据的批处理中。 1.流处理: 2.离线批处理: 分析:不管你是数据的实时流处理,还是数据的离线批处理,都是会使用flume这个日志收集框架来做日志原创 2017-11-21 11:10:11 · 1218 阅读 · 1 评论 -
ELK搭建实时日志分析平台
ELK搭建实时日志分析平台导言 ELK由ElasticSearch、Logstash和Kiabana三个开源工具组成,ELK平台可以同时实现日志收集、日志搜索和日志分析的功能。对于生产环境中海量日志信息的分析处理无疑不是一个好的解决方案。 官方网站:https://www.elastic.co/1).Elasticsearch是个开源分布式搜索引擎,它的特点有:分布式,零配置,自动发现,索引自动原创 2017-11-22 17:41:43 · 1235 阅读 · 2 评论 -
环境搭建-CentOS集群搭建
环境搭建-CentOS集群搭建写在前面 最近有许多小伙伴问我,大数据的hadoop分布式集群该如何去搭建。所以,想着,就写一篇博客,帮助到更多刚入门大数据的人。本博客会一步一步带你实现一个Hadoop的搭建。跟着博客上面的步骤,很详细的。你很快就会有一个自己的hadoop集群啦。我是在自己的windows机器上使用virtualBox来虚拟三台机器,作为实验的环境。实验环境 Windows 宿主原创 2017-11-23 19:16:01 · 818 阅读 · 0 评论 -
环境搭建-Hadoop集群搭建
环境搭建-Hadoop集群搭建写在前面,前面我们快速搭建好了centos的集群环境,接下来,我们就来开始hadoop的集群的搭建工作实验环境 Hadoop版本:CDH 5.7.0 这里,我想说一下,我们我没有选择官方版本,是因为,cdh版本已经解决好了各个组件之间的依赖。因为,后面,我们还会使用更多hadoop家族里面的组件。cdh版本目前也是国内成产环境中使用最多的一个版本。环境所需要的安装包原创 2017-11-23 17:48:48 · 1279 阅读 · 0 评论 -
在Docker中启动Cloudera
写在前面记录一下,一个简单的cloudera处理平台的构建过程和一些基本组件的使用前置说明需要一台安装有Docker的机器docker常用命令:docker ps docker ps -adocker imagesdocker rm 容器docker rmi 镜像docker stop 容器docker build -t 镜像名 dockerfile的位置docker ru...原创 2018-10-15 10:29:22 · 1583 阅读 · 0 评论 -
用户行为日志概述
写在前面什么是用户行为日志呢?其实也叫做用户行为轨迹,流量日志等。简单来说,就是用户每次访问网站产生的行为数据(访问,浏览,搜索,点击等)。基本上,只要你访问了任何一个网站,该网站都会有你的行为记录。当然,日志也是一个很大的概念,任何程序都有可能输出日志:操作系统内核、各种应用服务器等等。日志的内容、规模和用途也各不相同,很难一概而论。这里我想主要说的就是,Web日志。即,web服务器记录的日...原创 2018-10-17 15:44:30 · 5808 阅读 · 0 评论 -
Hadoop初识
写在前面本文带你更好了解hadoop的一些知识。Hadoop概述Hadoop官方网站是:http://hadoop.apache.org/名称由来?Hadoop这个名称其实没有实际意义,只是hadoop作者小孩的一个大象玩具的名称Apache™Hadoop®项目开发了用于可靠,可扩展的分布式计算的开源软件。Apache Hadoop软件库是一个框架,允许使用简单的编程模型跨计算机...原创 2018-10-17 16:52:40 · 350 阅读 · 0 评论 -
Hadoop核心组件之HDFS
HDFS:分布式文件系统一句话总结一个文件先被拆分为多个Block块(会有Block-ID:方便读取数据),以及每个Block是有几个副本的形式存储1个文件会被拆分成多个Blockblocksize:128M(Hadoop2.0以后默认的块大小,可以自定义配置)130M ==> 2个Block: 128M 和 2MHDFS设计目标巨大的分布式文件系统满足大数据场景基本数...原创 2018-10-17 17:11:20 · 458 阅读 · 0 评论 -
Hadoop核心组件之YARN
YARN概述Yet Another Resource Negotiator:另外资源的协调者通用的资源管理系统为上层应用提供统一的资源管理和调度操作系统级别的调度框架,可以让各种计算框架运行在上面YARN:不同计算框架可以共享同一个HDFS集群上的数据,享受整体的资源调度XXX on YARN的好处:与其他计算框架共享集群资源,按资源需要分配,进而提高集群资源的利用率XXX:...原创 2018-10-17 17:18:00 · 466 阅读 · 0 评论 -
在腾讯云下搭建hadoop伪分布式系统
Apache的Hadoop是可靠的、可扩展的开发开源软件,分布式计算。Apache Hadoop软件库是一个框架,允许使用简单的编程模型在计算机集群中对大型数据集进行分布式处理。它被设计成从单个服务器扩展到数千台机器,每个机器都提供本地计算和存储。而不是依靠硬件来提供高可用性,库本身的目的是检测和处理应用层的故障,因此在一组计算机上提供高可用性服务,每一台计算机都容易出现故障。该项目包括这原创 2017-10-26 14:58:28 · 2814 阅读 · 0 评论