
大数据
野马16
欢迎留言,邮箱horacehe15@163.com
展开
-
Hive的若干操作
hive参考网址官方文档参考网址1,远程连接HIVE安装hiveserver2启动配置Hive学习之HiveServer2服务端配置与启动hiveserver2后台启动 启动hiveserver2和metastorehive --service metastore &hiveserver2$HIVE_HOME/bin/beeline -u jdbc:hive2://localhost:10000;auth=hive2;password=123456# 后台启动启动原创 2020-05-21 23:14:34 · 285 阅读 · 0 评论 -
Redis在Windows(win10)下安装
https://blog.youkuaiyun.com/qq_36653267/article/details/80652765Redis下载:Windows下载地址:https://github.com/MicrosoftArchive/redis/releases下载后解压:win+r-->运行cmd-->D:\Redis目录下的两个文件\redis-server.exe redi...转载 2019-09-26 15:42:22 · 285 阅读 · 0 评论 -
大数据架构如何做到流批一体?
导读:大数据与现有的科技手段结合,对大多数产业而言都能产生巨大的经济及社会价值。这也是当下许多企业,在大数据上深耕的原因。大数据分析场景需要解决哪些技术挑战?目前,有哪些主流大数据架构模式及其发展?今天,我们都会一一解读,并介绍如何结合云上存储、计算组件,实现更优的通用大数据架构模式,以及该模式可以涵盖的典型数据处理场景。大数据处理的挑战关键词:持续聚合、分析时序数据现在已经有越来越多...转载 2019-07-01 08:57:28 · 5731 阅读 · 2 评论 -
Hadoop分布式云平台安装手册(内附GitHub网址,请自行下载)
安装文档一份:详情参考https://github.com/horacehe15/hadoopdoc原创 2019-03-26 23:03:19 · 177 阅读 · 0 评论 -
Kafka 源码编译
环境准备JDK1.7 or higher(建议使用 JDK 1.8)软件准备scala-2.11.12.zip 下载地址:https://www.scala-lang.org/download/2.11.12.html gradle-4.8.1-bin.zip(写本文的时候gradle最新版是4.8.1) 下载地址:https://gradle.org/releases/ 下载bina...转载 2019-02-25 17:55:08 · 1919 阅读 · 0 评论 -
Apache Avro 入门
1. 简介Apache Avro(以下简称 Avro)是一种与编程语言无关的序列化格式。Doug Cutting 创建了这个项目,目的是提供一种共享数据文件的方式。Avro 数据通过与语言无关的 schema 来定义。schema 通过 JSON 来描述,数据被序列化成二进制文件或 JSON 文件,不过一般会使用二进制文件。Avro 在读写文件时需要用到 schema,schema 一般会...转载 2019-02-25 17:47:01 · 655 阅读 · 0 评论 -
Kafka 中使用 Avro 序列化框架(一):使用传统的 avro API 自定义序列化类和反序列化类
原文链接https://cloud.tencent.com/developer/article/1336582关于 avro 的 maven 工程的搭建以及 avro 的入门知识,可以参考: Apache Avro 入门1. 定义 schema 文件,并编译 maven 工程生成实体类schema 文件名称为:stock.avsc,内容如下:{ "namespace": ...转载 2019-02-25 17:45:41 · 988 阅读 · 0 评论 -
Kafka 中使用 Avro 序列化框架(二):使用 Twitter 的 Bijection 类库实现 avro 的序列化与反序列化
使用传统的 avro API 自定义序列化类和反序列化类比较麻烦,需要根据 schema 生成实体类,需要调用 avro 的 API 实现 对象到 byte[] 和 byte[] 到对象的转化,而那些方法看上去比较繁琐,幸运的是,Twitter 开源的类库 Bijection 对传统的 Avro API 进行了封装了和优化,让我们可以方便的实现以上操作。1. 添加 Bijection 类库的依...转载 2019-02-25 17:44:02 · 843 阅读 · 0 评论 -
Kafka 中使用 Avro 序列化组件(三):Confluent Schema Registry
1. schema 注册表无论是使用传统的Avro API自定义序列化类和反序列化类还是使用Twitter的Bijection类库实现Avro的序列化与反序列化,这两种方法都有一个缺点:在每条Kafka记录里都嵌入了schema,这会让记录的大小成倍地增加。但是不管怎样,在读取记录时仍然需要用到整个 schema,所以要先找到 schema。有没有什么方法可以让数据共用一个schema?我...转载 2019-02-25 17:38:53 · 2171 阅读 · 1 评论 -
Flume+Kafka+Storm+Redis构建大数据实时处理系统:实时统计网站PV(网页访问值)、UV(独立访问值)+展示
原文链接:http://blog.51cto.com/xpleaf/2104160?cid=7046901 大数据处理的常用方法前面在我的另一篇文章中《大数据采集、清洗、处理:使用MapReduce进行离线数据分析完整案例》中已经有提及到,这里依然给出下面的图示:前面给出的那篇文章是基于MapReduce的离线数据分析案例,其通过对网站产生的用户访问日志进行处理并分析出该网站在某天...转载 2019-02-19 16:42:24 · 472 阅读 · 0 评论 -
Nifi
官方文档:https://nifi.apache.org/docs.html易于使用,功能强大且可靠的系统,用于处理和分发数据。特征Apache NiFi支持功能强大且可扩展的数据路由,转换和系统中介逻辑的有向图。Apache NiFi的一些高级功能和目标包括:基于Web的用户界面 设计,控制,反馈和监控之间的无缝体验 高度可配置 容忍损失与保证交付 低延迟与高吞吐...原创 2019-02-19 14:11:37 · 744 阅读 · 0 评论 -
基于ubuntu16.04搭建Ambari集群
基于ubuntu16.04搭建Ambari集群从10月10号接触Ambari到现在为止,刚好14天吧(两个星期) 网上的安装方法一大堆,但是必须要找到适合你的,否则很难安装成功的。所以我将题目定为:基于ubuntu16.04搭建Ambari集群。一、修改域名dthost001(样例)root@DTHost001:/home/dtmanager# vim /etc/hosts1...原创 2018-10-24 23:03:58 · 917 阅读 · 0 评论 -
在Ubuntu中安装Ambari
第一节. Ambari简介Ambari跟Hadoop等开源软件一样,也是Apache Software Foundation中的一个项目,并且是顶级项目。目前最新的发布版本是2.4.1。就Ambari的作用来说,就是创建、管理、监视Hadoop的集群,但是这里的Hadoop是广义,指的是Hadoop整个生态圈(例如 Hive,Hbase,Sqoop,Zookeeper等,而并不仅是特指Hado...转载 2018-10-16 13:00:51 · 2976 阅读 · 0 评论 -
MapReduce编程入门版
实现一个WordCount一、编写Map类package com.hellohadoop;import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;im...原创 2018-10-14 23:39:58 · 1455 阅读 · 0 评论 -
Rancher入门
Rancher是什么Rancher是一个开源的企业级容器管理平台。通过Rancher,企业再也不必自己使用一系列的开源软件去从头搭建容器服务平台。Rancher提供了在生产环境中使用的管理Docker和Kubernetes的全栈化容器部署与管理平台。为什么需要Rancher在原来, 如果我们需要做一个分布式集群我们需要学习一全套的框架并编码实现如 服务发现, 负载均衡等逻辑, 给...转载 2018-10-11 11:22:45 · 1451 阅读 · 0 评论