
大数据
铁头娃1740
若不是生活所迫,谁愿意把自己弄的一身才华
展开
-
HBase 性能优化
1. 修改Linux最大文件数Linux系统最大可打开文件数一般默认的参数值是1024,如果你不进行修改并发量上来的时候会出现“Too Many Open Files”的错误,导致整个HBase不可运行查看: ulimit -a 结果:open files (-n) 1024临时修改: ulimit -n 4096持久修改:vi /etc/security/li...原创 2019-08-14 17:51:13 · 460 阅读 · 0 评论 -
hive 常用运算
hive 常用运算第一部分:关系运算Hive支持的关系运算符•常见的关系运算符•等值比较: =•不等值比较: <>•小于比较: <•小于等于比较: <=•大于比较: >•大于等于比较: >=•空值判断: IS NULL•非空判断: IS NOT NULL•LIKE比较: LIKE•JAVA的LIKE操作: RL...原创 2019-08-14 17:24:57 · 954 阅读 · 0 评论 -
Elasticsearch+Hbase实现海量数据秒回查询
我今天分享的是通过ElasticSearch与hbase进行整合的一个搜索案例,这个案例涉及的技术面比较广,首先你得有JAVAEE的基础,要会SSM,而且还要会大数据中的hdfs、zookeeper、hbase以及ElasticSearch和kibana。环境部署在4台centos7上。主机名为node1-node4。这里假设你已经安装好了zookeeper、hadoop、hbase和Ela...转载 2019-08-07 10:42:54 · 3440 阅读 · 0 评论 -
Kafka面试总结(持续更新中......)
# kafka分区数的确定## 1、kafka分区* Kafka可以将主题划分为多个分区(Partition),会根据分区规则选择把消息存储到哪个分区中,只要如果分区规则设置的合理,那么所有的消息将会被均匀的分布到不同的分区中,这样就实现了负载均衡和水平扩展。## 2、各角色对分区的操作* kafka的生产者和消费者都可以多线程地并行操作,而每个线程处理的是一个分区的数据。因此分区...原创 2019-08-07 10:16:42 · 573 阅读 · 0 评论 -
Spark面试问题整理(持续更新中......)
Spark应用转换流程 1、spark应用提交后,经历了一系列的转换,最后成为task在每个节点上执行 2、RDD的Action算子触发Job的提交,生成RDD DAG 3、由DAGScheduler将RDD DAG转化为Stage DAG,每个Stage中产生相应的Task集合 4、TaskScheduler将任务分发到Executor执行 ...原创 2019-08-07 09:22:25 · 12216 阅读 · 3 评论 -
Spark计算引擎之SparkStreaming详解
Spark Streaming流式处理1. Spark Streaming介绍1.1 Spark Streaming概述1.1.1什么是Spark StreamingSpark Streaming类似于Apache Storm,用于流式数据的处理。根据其官方文档介绍,Spark Streaming有高吞吐量和容错能力强等特点。Spark Streaming支持的数据...原创 2019-08-06 17:06:41 · 1050 阅读 · 0 评论 -
Spark计算引擎之SparkSQL详解
一、Spark SQL二、Spark SQL1.Spark SQL概述1.1.Spark SQL的前世今生 Shark是一个为Spark设计的大规模数据仓库系统,它与Hive兼容。Shark建立在Hive的代码基础上,并通过将Hive的部分物理执行计划交换出来。这个方法使得Shark的用户可以加速Hive的查询,但是Shark继承了Hive的大且复杂的代码使得Shark...原创 2019-08-06 16:44:48 · 35224 阅读 · 3 评论 -
Spark运行机制详解
一、Spark中的基本概念(1)Application:表示你的应用程序(2)Driver:表示main()函数,创建SparkContext。由SparkContext负责与ClusterManager通信,进行资源的申请,任务的分配和监控等。程序执行完毕后关闭SparkContext(3)Executor:某个Application运行在Worker节点上的一个进程,该进程负责运行...原创 2019-08-06 16:26:48 · 812 阅读 · 0 评论 -
Spark计算引擎RDD详解
一、Spark计算模型RDD二、 弹性分布式数据集RDD2. RDD概述2.1 什么是RDDRDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将数据缓存在内...原创 2019-08-06 16:21:07 · 518 阅读 · 0 评论 -
Spark基础教程以及内核解析
SparkSpark的四大组件:SparkSqL,SparkStreaming,SparkMLlib,SparkGraphx基本概念:Spark是一种快速、通用的、可扩展的大数据分析引擎;是基于内存的分布式并行计算的大数据计算框架。为什么学习SaprkSpark是一个开源的类似于Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分...原创 2019-08-06 16:05:08 · 265 阅读 · 0 评论 -
用于实时大数据处理的Lambda架构
用于实时大数据处理的Lambda架构原文地址:https://blog.youkuaiyun.com/brucesea/article/details/459378751.Lambda架构背景介绍Lambda架构是由Storm的作者Nathan Marz提出的一个实时大数据处理框架。Marz在Twitter工作期间开发了著名的实时大数据处理框架Storm,Lambda架构是其根据多年进行分布式大数...转载 2018-10-10 10:52:29 · 3430 阅读 · 0 评论 -
hbase数据库详解
本文首先简单介绍了HBase,然后重点讲述了HBase的高并发和实时处理数据 、HBase数据模型、HBase物理存储、HBase系统架构,HBase调优、HBase Shell访问等。不过在此之前,你可以先了解 Hadoop生态系统 ,若想运行HBase,则需要先搭建好Hadoop集群环境,可以参考此文搭建5个节点的hadoop集群环境(CDH5) 。好了,让我们来学习HBase吧!...转载 2018-08-10 13:52:30 · 52586 阅读 · 2 评论 -
Sqoop导入导出
Sqoop 导入“导入工具”导入单个表从 RDBMS 到 HDFS。表中的每一行被视为 HDFS 的记录。所有记录都存储为文本文件的文本数据(或者 Avro、sequence 文件等二进制数据)。下面的语法用于将数据导入 HDFS。$ sqoop import (generic-args) (import-args)Sqoop 测试表数据在 mysql 中创建数据库 userdb,创建三张表: e...原创 2018-07-11 16:31:20 · 467 阅读 · 0 评论 -
ElasticSearch简单入门案例
1、原生操作使用 Xput创建索引说明:RESTful接口URL的格式:http://localhost:9200/<index>/<type>/[<id>]其中index、type是必须提供的。id是可选的,不提供es会自动生成。index、type将信息进行分层,利于管理。index可以理解为数据库;type理解为数据表;id相当于数据库表中记录的主键,是唯...原创 2018-07-11 16:27:32 · 4953 阅读 · 0 评论 -
ambari2.6.2安装详解
一、环境准备1、准备三台机器centos6.5Server:node-1(192.168.80.137)Agent:node-2(192.168.80.138),node-3(192.168.80.139)注:以下操作如无特殊说明,均需在3台机器上进行 2、设置FQDN修改/etc/hosts文件,设置fqdn:vi /etc/hosts192.168.80.137 IOP137.ambari.c...原创 2018-07-10 17:44:19 · 2383 阅读 · 0 评论 -
Oozie4.3.1安装指南详解
一、环境支持Oozie4.3.1Centos 6.5Java JDK 1.8Maven 3.5.4Hadoop2.7.4Pig0.17二、安装步骤详解Java的安装1、解压安装包tar -zxvf jdk-8u73-linux-x64.gz -C /export/service2、配置环境变量vi /etc/profileexport JAVA_HOME=/export/service/jdk1....原创 2018-07-09 19:44:16 · 1537 阅读 · 0 评论 -
Hadoop2.7.4安装部署详解
Hadoop集群安装文档一.安装步骤1 . 发行版本Hadoop 发行版本分为开源社区版和商业版,社区版是指由 Apache 软件基金会维护的版本,是官方维护的版本体系。商业版 Hadoop 是指由第三方商业公司在社区版 Hadoop 基础上进行了一些修改、整合以及各个服务组件兼容性测试而发行的版本,比较著名的有 cloudera 的 CDH、mapR 等。我搭建的是社区版:Apache Hado...原创 2018-07-09 15:36:11 · 3814 阅读 · 0 评论 -
Hive整合Hbase详解
Hive 整合Hbase1、摘要Hive提供了与HBase的集成,使得能够在HBase表上使用HQL语句进行查询 插入操作以及进行Join和Union等复杂查询、同时也可以将hive表中的数据映射到Hbase中。 2、应用场景2.1 将ETL操作的数据存入HBase 2.2 HBase作为Hive的数据源 2.3 构建低延时的数据仓库 3、环境准备3.1 hive与hbase版本兼容性Hive...原创 2018-07-09 14:08:54 · 18307 阅读 · 7 评论 -
ELK(ElasticSearch,Logstash,Kibana)入门详解
麋鹿ELK由ElasticSearch,Logstash和Kiabana三个开源工具组成。一,ELK概述1 ,ELK 简介ElasticSearch:是个开源分布式搜索引擎,它的特点有:分布式,零配置,自动发现,索引自动分片,索引副本机制, restful风格接口,多数据源,自动搜索负载等。Logstash: 是一个完全开源的工具,他可以对你的日志进行收集,分析,并将其存储供以后使用。Kibana...原创 2018-07-09 13:21:13 · 19873 阅读 · 2 评论 -
Hadoop3.0集群详细搭建步骤
一、搭建Hadoop3.X1.1配置服务器1个主节点:centos100(192.168.65.128),2个(从)子节点:centos101(192.168.65.129),centos102(192.168.65.130)1.2配置主节点名(192.168.65.128)vi /etc/sysconfig/network添加内容:NETWORKING=yesHOSTNAME=centos100...原创 2018-07-09 13:12:57 · 6381 阅读 · 2 评论 -
Impala的简单入门
一、Impala概述什么是Impala?Impala是用于处理存储在Hadoop集群中的大量数据的MPP(大规模并行处理)SQL查询引擎。 它是一个用C ++和Java编写的开源软件。 与其他Hadoop的SQL引擎相比,它提供了高性能和低延迟。换句话说,Impala是性能最高的SQL引擎(提供类似RDBMS的体验),它提供了访问存储在Hadoop分布式文件系统中的数据的最快方法。为什么选择Imp...原创 2018-07-06 16:51:23 · 38692 阅读 · 0 评论