
◆【大数据】
文章平均质量分 74
皮皮的雅客
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
配置高可用(名称节点高可用)
本文详细配置名称节点的高可用,什么是高可用可参考官方文档说在前面工作环境:VMware® Workstation 12 Pro 12.5.6 build-5528349linux版本:CentOS-7-x86_64-Minimal-1611.isoJDK版本:jdk-8u65-linux-x64.tar.gzHadoop版本:hadoop-2.7.6.tar.gz...原创 2018-08-08 23:05:43 · 1444 阅读 · 0 评论 -
hadoop中的几个核心配置
说在前面工作环境:VMware® Workstation 12 Pro 12.5.6 build-5528349linux版本:CentOS-7-x86_64-Minimal-1611.isoJDK版本:jdk-8u65-linux-x64.tar.gzHadoop版本:hadoop-2.7.6.tar.gzhadoop中几个核心的配置如下配置临时目录 ...原创 2018-08-08 23:08:04 · 2706 阅读 · 0 评论 -
多输入问题(多种格式数据的输入处理)
在hadoop中,可以处理多种输入格式的文件。如下给出的例子是同时输入文本和二进制文件。Mapperpublic class WCSeqMapper extends Mapper<IntWritable, Text, Text, IntWritable> { @Override protected void map(IntWritable ...原创 2018-08-09 09:15:15 · 589 阅读 · 0 评论 -
配置机架感知
为了达到hadoop的最佳性能,配置hadoop系统让其了解网络拓扑状况很关键。机架感知是一种优化hadoop集群的方式,使hdfs能更加智能的放置副本(replica),以取得性能和弹性的平衡。 hadoop默认的副本放置策略: 首选在本地机架的一个node存放副本,另一个副本在本地机架的另一个不同节点。最后一个副本在不同机架的不同节点上如下是自定义机架感知的基本步骤:...原创 2018-08-09 09:16:30 · 437 阅读 · 0 评论 -
hadoop中的全排序
hadoop 有一个很重要的功能就是能对处理的数据进行清洗,排序(部分排序),将杂乱无章的数据编程有序的数据。hadoop的MR框架能对数据进行默认的排序(部分排列),下面将介绍第一种定制排序——全排序(按照key进行排序)。全排序的几种实现只定义一个reduce,默认就是全排序自定义分区函数(自行设置分界区间)使用hadoop的采样机制 重点来说一下使...原创 2018-08-09 09:18:31 · 1284 阅读 · 0 评论 -
hadoop中的二次排序
hadoop 中的另一种定制的排序手段就是二次排序(对value进行排序)二次排序步骤如下准备工作 对一个文本中数据进行排序,找出每年的最高气温public void makeData() throws IOException { FileWriter fw = new FileWriter("F:/hadoop/temp.txt"); ...原创 2018-08-09 09:19:26 · 255 阅读 · 0 评论 -
hive的基本命令行操作
两种表结构managed table:托管表。删除表时,数据也删除。external table:外部表。删除表时,数据不删除。基本命令//创建表 外部表 t2$hive>CREATE external TABLE IF NOT EXISTS t2(id int,name string,age int) COMMENT 'xx' ROW FORMAT DE...原创 2018-08-11 22:26:16 · 10923 阅读 · 0 评论 -
hive自定义函数(UDF)
hive 不但为我们提供了丰富的函数库,而且还提供了允许我们扩展的Java接口(UDF),使我们能便捷的自定义函数,实现更多复杂的功能。如下是几个自定义函数:几个命令//查看所有函数$hive> show functions;//查看函数的使用方法$hive> desc function 函数名;两数和(AddUDF)/** * 自定义...原创 2018-08-13 10:52:36 · 232 阅读 · 0 评论 -
第一个MR程序—WordsCount
编写MR编写Mapperimport org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;import java.io....原创 2018-08-08 23:07:11 · 2604 阅读 · 0 评论 -
远程调试(压缩与解压缩)
我们可以将本地写好的程序打包成jar文件放入集群中,然后在本地进行调试运行。在调试之前先分享几个技巧。配置maven-antrun-plugin,实现文件的复制在pom.xml中导入如下配置:<build> <finalName>MyHadoop</finalName> <plugins&gt原创 2018-08-08 23:03:53 · 420 阅读 · 0 评论 -
Hadoop配置—完全分布式
Hadoop分为三种配置模式:独立模式(standalone|local),伪分布模式(Pseudodistributed mode),完全分布式(full distributed)说在前面工作环境:VMware® Workstation 12 Pro 12.5.6 build-5528349linux版本:CentOS-7-x86_64-Minimal-1611.is...原创 2018-08-07 15:06:25 · 389 阅读 · 0 评论 -
centos 上安装与配置MySQL
说在前面工作环境:VMware® Workstation 12 Pro 12.5.6 build-5528349linux版本:CentOS-7-x86_64-Minimal-1611.isoMySQL版本:mysql-5.6.41-linux-glibc2.12-x86_64.tar.gz一. 安装MySQL 在Linux上安装MySQL一般有两种方式。第一种...原创 2018-08-07 23:58:30 · 291 阅读 · 0 评论 -
安装配置hive仓库
hive 是基于Hadoop的数据仓库,所以在安装hive之前需要先安装配置好hadoop环境,同时需要开启hadoop的hdfs模块和yarn模块(yarn模块用于资源调度)。本文需要使用MySQL存放hive的元数据,所以请先在本机上安装配置MySQL说在前面工作环境:VMware® Workstation 12 Pro 12.5.6 build-5528349li...原创 2018-08-08 22:53:59 · 281 阅读 · 0 评论 -
通过远程jdbc方式连接到hive数据仓库
hive端口只能开启一个,开启多个会有阻塞,不利于并发访问。在通过jdbc远程访问hive数据仓库时,需要启动 hiveserver2服务器,并通过 beeline命令行 连接到 hiveserver2服务器1. 启动hiveserver2服务器,监听端口100002. 通过beeline命令行连接到hiveserver2$>beeline ...原创 2018-08-08 22:55:56 · 717 阅读 · 0 评论 -
Hadoop配置—伪分布模式
Hadoop分为三种配置模式:独立模式(standalone|local),伪分布模式(Pseudodistributed mode),完全分布式(full distributed)说在前面工作环境:VMware® Workstation 12 Pro 12.5.6 build-5528349linux版本:CentOS-7-x86_64-Minimal-1611.is...原创 2018-08-08 22:58:19 · 400 阅读 · 0 评论 -
centos minimal安装Hadoop
大数据学习第一步,把Hadoop配置起来,终于到这一步了,激动!!!说在前面工作环境:VMware® Workstation 12 Pro 12.5.6 build-5528349linux版本:CentOS-7-x86_64-Minimal-1611.isoJDK版本:jdk-8u65-linux-x64.tar.gzHadoop版本:hadoop-2.7.6.t...原创 2018-08-08 22:59:18 · 380 阅读 · 0 评论 -
centos minimal安装配置jdk
其实个人感觉centos配置JDK还是挺简单的,但是还是做一个简单的笔记,以免以后又忘了。说在前面工作环境:VMware® Workstation 12 Pro 12.5.6 build-5528349linux版本:CentOS-7-x86_64-Minimal-1611.isoJDK版本:jdk-8u65-linux-x64.tar.gz安装JDK...原创 2018-08-08 23:00:41 · 504 阅读 · 0 评论 -
配置centos minimal
我只想说,我绝望了一次,不想再绝望第二次说在前面工作环境:VMware® Workstation 12 Pro 12.5.6 build-5528349linux版本:CentOS-7-x86_64-Minimal-1611.isoVMware安装镜像不多赘述,傻瓜操作!万事第一步,把网络先连上 说句废话啊,CentOS-7-x86_64-Mini...原创 2018-08-08 23:02:01 · 400 阅读 · 0 评论 -
Avro 数据序列化
Apache Avro 是一个独立于编程语言的数据序列化系统。旨在解决Hadoop中Writable类型的不足:缺乏语言的可移植性。Avro 模式通常用json来写,数据通常采用二进制格式编码。Avro的使用 Avro 的使用可以分为两种:编译Schema和非编译Schema编译Schema定义schema:emp.avsc//json格式的文...原创 2018-08-14 22:53:57 · 1148 阅读 · 0 评论 -
Linux命令整理
centos 基本命令整理CentOS Windows$>ls cmd>dir //查看目录下的文件$>ls --help //查看命令帮助$>man ls ...原创 2018-08-14 23:36:23 · 323 阅读 · 0 评论 -
Zookeeper完全分布式集群配置
说在前面工作环境:VMware® Workstation 12 Pro 12.5.6 build-5528349linux版本:CentOS-7-x86_64-Minimal-1611.isoJDK版本:jdk-8u65-linux-x64.tar.gzHadoop版本:hadoop-2.7.6.tar.gzZookeeper版本:zookeeper-3.4.12.tar.g...原创 2018-08-16 11:08:15 · 522 阅读 · 0 评论 -
Storm的安装与配置
说在前面工作环境:VMware® Workstation 12 Pro 12.5.6 build-5528349linux版本:CentOS-7-x86_64-Minimal-1611.isoJDK版本:jdk-8u65-linux-x64.tar.gzHadoop版本:hadoop-2.7.6.tar.gzZookeeper版本:zookeeper-3.4.12.tar.gzSt...原创 2018-10-03 20:53:54 · 423 阅读 · 0 评论 -
Storm概念解析
Storm 是什么Storm 是一个分布式的,可靠的,容错的流式计算框架Storm 可以实时可靠的处理流数据,在实时分析/性能监测等需要高时效性的领域广泛采用Storm把集群的状态存在Zookeeper或者本地磁盘,所以后台进程都是无状态的(不需要保存自己的状态,都在zookeeper上),可以在不影响系统健康运行的同时失败或重启Storm可应用于–数据流处理、持续计算(...原创 2018-10-08 15:14:34 · 546 阅读 · 0 评论 -
Storm分组策略
以 WordCount 为例代码示例如下://源头Spoutpublic class WordCountSpout implements IRichSpout { private TopologyContext context ; private SpoutOutputCollector collector ; private List<String&g...原创 2018-10-08 15:15:24 · 649 阅读 · 0 评论 -
Storm确保消息被消费
以WordCount为例源头 Spoutpublic class WordCountSpout implements IRichSpout { private TopologyContext context; private SpoutOutputCollector collector; private List<String> states; ...原创 2018-10-08 15:16:27 · 316 阅读 · 0 评论 -
Storm实现单词统计
源头 Spoutpublic class WordCountSpout implements IRichSpout { private TopologyContext context ; private SpoutOutputCollector collector ; private List<String> states ; private R...原创 2018-10-08 15:17:18 · 493 阅读 · 0 评论 -
Storm整合kafka
kafka 作为源头 Spout,Storm进行流计算处理(以WordCount为例)导入依赖<dependency> <groupId>org.apache.storm</groupId> <artifactId>storm-core</artifactId>原创 2018-10-08 15:18:14 · 2164 阅读 · 0 评论 -
Storm自定义分组
以 WordCount 为例自定义策略/** * 自定义分组 */public class MyGrouping implements CustomStreamGrouping { //接受目标任务的id集合 private List<Integer> targetTasks ; public void prepare(WorkerTopol...原创 2018-10-08 15:19:14 · 223 阅读 · 0 评论 -
8节点(hadoop+yarn+hbase+storm+kafka+spark+zookeeper)高可用集群详细配置
配置 hadoop+yarn+hbase+storm+kafka+spark+zookeeper 高可用集群,同时安装相关组建:JDK,MySQL,Hive,Flume文章目录环境介绍节点介绍集群介绍软件版本介绍前期准备相关配置新建用户 centos添加sudo权限更改用户名主机名与IP映射显示当前文件的绝对路径ssh免密登录关闭防火墙两个批处理脚本批分发指令脚本(xcall.sh)批同步...原创 2018-11-03 13:58:29 · 3224 阅读 · 3 评论 -
Kafka的安装配置
kafka 是一个分布式的消息处理中间件说在前面工作环境:VMware® Workstation 12 Pro 12.5.6 build-5528349linux版本:CentOS-7-x86_64-Minimal-1611.isoJDK版本:jdk-8u65-linux-x64.tar.gzHadoop版本:hadoop-2.7.6.tar.gzZookeeper版本:zoo...原创 2018-09-26 21:56:56 · 227 阅读 · 0 评论 -
Flume的安装与配置
说在前面工作环境:VMware® Workstation 12 Pro 12.5.6 build-5528349linux版本:CentOS-7-x86_64-Minimal-1611.isoFlume版本:apache-flume-1.8.0-bin.tar.gzFlume的安装下载 Flume:apache-flume-1.8.0-bin.tar.gz解压到 /sof...原创 2018-09-20 15:20:49 · 226 阅读 · 0 评论 -
Zookeeper安装配置(单机测试版)
Zookeeper 是hadoop的分布式协调服务。本文为单机测试版本,旨在熟悉API。说在前面工作环境:VMware® Workstation 12 Pro 12.5.6 build-5528349linux版本:CentOS-7-x86_64-Minimal-1611.isoJDK版本:jdk-8u65-linux-x64.tar.gzHadoop版本:hado...原创 2018-08-16 11:08:55 · 331 阅读 · 0 评论 -
Zookeeper的几个概念
ZooKeeper架构client:客户端。从server获取信息,周期性发送数据给server,表示自己还活着。client连接时,server回传ack信息。如果client没有收到reponse,自动重定向到另一个server。server:ZooKeeper集群中的一员,向client提供所有service,回传ack信息给client,表示自己还活着。ensemble:...原创 2018-08-16 11:09:42 · 517 阅读 · 0 评论 -
批分发和批同步脚本
说在前面工作环境:VMware® Workstation 12 Pro 12.5.6 build-5528349linux版本:CentOS-7-x86_64-Minimal-1611.isoJDK版本:jdk-8u65-linux-x64.tar.gzHadoop版本:hadoop-2.7.6.tar.gz 在完全分布式的配置中,在修改了一台主机的文件后,需要执行n...原创 2018-08-16 11:13:22 · 367 阅读 · 0 评论 -
Zookeeper高可用集群配置
环境准备高可用集群环境搭建,参考如下文档:https://blog.youkuaiyun.com/king123456man/article/details/81517234ZooKeeper完全分布式集群搭建,参考如下文档:https://blog.youkuaiyun.com/king123456man/article/details/81737991脚本准备:批分发(xcall.sh)和批...原创 2018-08-16 13:38:23 · 681 阅读 · 0 评论 -
Hbase 完全分布式+高可用 集群搭建
说在前面工作环境:VMware® Workstation 12 Pro 12.5.6 build-5528349linux版本:CentOS-7-x86_64-Minimal-1611.isoJDK版本:jdk-8u65-linux-x64.tar.gzHadoop版本:hadoop-2.7.6.tar.gzZookeeper版本:zookeeper-3.4.12.tar.g...原创 2018-08-21 10:13:20 · 3349 阅读 · 0 评论 -
Hbase shell 和 Java API 1
Hbase shell 在Hbase中,namespace(名字空间)相当于关系型数据库的数据库(database)。Hbase是一种非关系型数据库,以键值对(key-value)形式进行存储。所以,对于Hbase数据库的CRUD与Map的操作很相似: put(插入),get(查询)$>hbase shell //登...原创 2018-08-21 10:14:03 · 247 阅读 · 0 评论 -
Hbase的Java API 2
private static void oop(Iterator<Result> it) { while (it.hasNext()) { Result r = it.next(); byte[] f1id = r.getValue(Bytes.toBytes("f1"), Bytes.toBytes("id")...原创 2018-09-09 16:36:43 · 164 阅读 · 0 评论 -
Flume Sink
Flume数据处理流程 Flume的事件是一个具有负载和字符串属性即的数据流单元。Flume Agent是一个JVM进程,负责接收外部源数据进行处理后沉给(sink)另一个目标组建(hbase hdfs hive。。。)下图是详细的处理流程就收外部事件给source处理(相当于服务器端)netcatspooldirexecsequence将事件源交给通道处理器进行...原创 2018-09-20 15:19:42 · 668 阅读 · 0 评论 -
Storm整合Hbase
将Storm流计算的结果存储到Hbase上。以 WordCount 为例准备工作1. 启动集群启动ZooKeeper集群$> zkServer.sh start启动hadoop集群(Hbase集群启动前应该保证Hadoop集群启动,并保证namenode为激活状态)$> start-dfs.sh启动hbase集群start-hbase.sh启...原创 2018-10-08 16:27:17 · 1165 阅读 · 1 评论