
大数据
文章平均质量分 66
INC随我
这个作者很懒,什么都没留下…
展开
-
Hive之分桶
对于每一个Hive表(包括分区表),Hive可以进一步对数据进行分桶,桶是更细粒度的数据范围划分。原创 2023-01-08 14:29:55 · 363 阅读 · 0 评论 -
HiveDML数据操作之查询
HiveDML是Hive中对表中数据的查询、插入、删除和修改的语言。原创 2023-01-08 14:29:49 · 276 阅读 · 0 评论 -
HiveDML数据操作之导入导出
使用HiveDML将数据进行导入导出。原创 2023-01-08 14:29:00 · 289 阅读 · 0 评论 -
HiveDDL数据操作
HiveDDL是Hive中负责数据结构定义与数据库对象定义的语言原创 2023-01-08 14:28:17 · 925 阅读 · 1 评论 -
Hive基础
Hive是为了解决海量结构化日志的数据统计框架,他是一个基于Hadoop的数据仓库工具,可以将结构化的数据映射为一张表,并提供类SQL的查询功能。本质就是将HQL转化成MR程序。原创 2023-01-08 14:25:27 · 213 阅读 · 0 评论 -
MR学习总结
MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(归约)",是它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。 当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(归约)函数,用来保证所有映射的键值对中的每一个共享相同的键组。原创 2023-01-08 14:23:04 · 239 阅读 · 0 评论 -
Flume自定义Sink
Sink 是完全事务性的。在从Channel 批量删除数据之前,每个Sink用Channel启动一 个事务。批量事件一旦成功写出到存储系统或下一个Flume Agent,Sink就利用 Channel提交事务。事务一旦被提交,该Channel从自己的内部缓冲区删除事件。Sink 组件目的地包括hdfs、logger、avro、file、HBase、solr等。官方提供的 Sink 类型已经很多,但是有时候并不能满足实际开发当中的需求,此时我们就需要根据实际需求自定义某些Sink。原创 2023-01-08 14:21:25 · 312 阅读 · 0 评论 -
Flume自定义Source
Source是负责接收数据到Flume Agent的组件。Source组件可以处理各种类型、各种 格式的日志数据,包括 avro、thrift、exec、jms、spooling directory、netcat、sequence generator、syslog、http、legacy。官方提供的 source 类型已经很多,但是有时候并不能 满足实际开发当中的需求,此时我们就需要根据实际需求自定义某些 source。原创 2023-01-08 14:18:18 · 391 阅读 · 1 评论 -
Flume自定义Interceptor
在实际的开发中,一台服务器产生的日志类型可能有很多种,不同类型的日志可能需要 发送到不同的分析系统。此时会用到Flume拓扑结构中的Multiplexing结构,Multiplexing的原理是,根据event中Header的某个key的值,将不同的event发送到不同的Channel中,所以我们需要自定义一个 Interceptor,为不同类型的event的Header中的key赋予不同的值。原创 2023-01-08 14:16:57 · 243 阅读 · 0 评论 -
Flume初识
本文是尚硅谷Flume课程随手笔记,记录课程的一些实战的操作步骤一、安装Flume并实现一个简易端口监控实现监控端口案例,通过Flume来监听端口数据,并将数据打印到控制台1. 首先进入官网下载Flume源码包2. 修改flume-env.sh文件export JAVA_HOME=/opt/module/jdk1.8.0_1443. 添加配置文件创建Flume Agent配置文件flume-netcat-logger.conf# Name the components on.原创 2020-05-26 14:29:15 · 367 阅读 · 0 评论 -
Hive初识
一、 安装Hive并启动1. 下载源码包解压源码包后,配置hive-env.sh(a)配置 HADOOP_HOME 路径export HADOOP_HOME=${Hadoop的路径}(b)配置 HIVE_CONF_DIR 路径export HIVE_CONF_DIR=${Hive配置文件路径}2. 启动hadoop3. 启动Hive客户端调用bin/hive进入Hive的客户端启动Hive后会发现Hive源码包中多了derby.log和metastore_db这个就是Hive原创 2020-05-26 14:28:27 · 313 阅读 · 0 评论 -
YARN集群搭建
本文主要是记录集群搭建流程,具体细节较为简略一、YARN简介Apache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。二、集群规划主机名作用hadoop11NameNode & DataNode & NodeManager.原创 2020-05-24 22:45:02 · 420 阅读 · 0 评论 -
HDFS高可用集群搭建
环境CentOS 7JAVA 1.8Zookeeper 2.9.2Hadoop 3.4.14一、简单HDFS集群中存在的问题及解决办法如何解决NameNode的单节点问题多个NameNode备份原NameNode数据如何解决多个NameNode是集群脑裂问题使用QJM,QJM(Quorum Journal Manager)是Hadoop专门为Namenode共享存储开发的组件。其集群运行一组Journal Node,每个Journal 节点暴露一个简单的RPC接口,允许N.原创 2020-05-24 22:44:11 · 827 阅读 · 0 评论 -
HBase中使用过滤器筛选数据
一、过滤器能干什么HBase为筛选数据提供了一组过滤器,通过过滤器可以在HBase中的数据的多个维度(行,列,数据版本)上进行对数据的筛选操作。通常来说,通过行键、列来筛选数据的应用场景较多。二、常见的过滤器基于行的过滤器PrefixFilter: 行的前缀匹配PageFilter: 基于行的分页基于列的过滤器ColumnPrefixFilter: 列前缀匹配FirstKeyOnlyFilter: 只返回每一行的第一列基于单元值的过滤器KeyOnlyFilt原创 2020-05-24 22:36:53 · 1895 阅读 · 0 评论 -
使用Java操作HBase数据库
一、添加依赖首先我们在maven项目中添加下面两个依赖<!-- hbase依赖 --><dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-client</artifactId> <version>1.4.10</version></dependency><!-- 单元测试依赖 --原创 2020-05-24 22:36:05 · 921 阅读 · 0 评论 -
HBase伪分布式集群安装
一、下载HBase安装包为了防止HBase和Hadoop版本间冲突,可以在CDH上下载和Hadoop兼容的HBase版本,本次搭建选择的是hbase-1.2.0下载路径:http://archive.cloudera.com/cdh5/二、配置伪分布式环境HBase相关配置文件在/conf文件之下,我们需要修改的配置文件有hbase-env.sh和hbase-site.xml我们先将hadoop中的hdfs-site.xml和core-site.xml文件复制HBase的/conf目录之原创 2020-05-24 22:34:42 · 679 阅读 · 1 评论 -
hadoop伪分布式集群安装
一、下载hadoop安装包hadoop安装包分为apache官方以及CDH,具体区别在此不做介绍,本次搭建选择的是hadoop-2.6.0-cdh5.7.0版本下载路径http://archive.cloudera.com/cdh5/二、配置hadoophadoop相关配置文件在/etc目录下我们需要修改的文件有core-site.xml,hadoop-env.sh,hdfs-site.xml对hadoop-env.sh文件中的JAVA_HOME进行一下配置在hdfs-site.x原创 2020-05-24 22:33:49 · 251 阅读 · 0 评论