
大数据
文章平均质量分 92
大数据架构及Hadoop生态圈
墨痕砚白
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
SparkSql入门
目录1. SQLContext的使用2.HiveContext的使用 3.SparkSession的使用4. spark-shell5. thriftserver编程 6.DataFrame&DataSet 1 概述2 DataFrame 基本API常用操作 3 DataFrame与RDD互操作4 DataSet7.SparkSQL操作外部数据...原创 2018-11-30 14:41:06 · 383 阅读 · 0 评论 -
cdh5.7.0伪分布式集群之hive安装
基本环境及软件:软件版本 软件包 centos-6.4 JDK-1.8 jdk-8u191-linux-x64.tar.gz hadoop-2.6.0 hadoop-2.6.0-cdh5.7.0.tar.gz hive-1.1.0 hive-1.1.0-cdh5.7.0.tar.gz 软件安装包官网下载地址 :http://archive-...原创 2018-11-29 18:00:41 · 822 阅读 · 0 评论 -
cdh5.7.0伪分布式集群之spark-2.2.0安装
基本环境及软件:软件版本 软件包 centos-6.4 JDK-1.8 jdk-8u191-linux-x64.tar.gz hadoop-2.6.0 hadoop-2.6.0-cdh5.7.0.tar.gz scala-2.11.8 scala-2.11.8.tgz spark-2.2.0 spark-2.2.0-bin-2.6.0...原创 2018-11-30 10:40:25 · 636 阅读 · 0 评论 -
phoenix(凤凰)与hbase集成
一、什么是Phonenix?Phoenix是构建在HBase上的一个SQL层,能让我们用标准的JDBC APIs而不是HBase客户端APIs来创建表,插入数据和对HBase数据进行查询。Phoenix完全使用Java编写,作为HBase内嵌的JDBC驱动。Phoenix查询引擎会将SQL查询转换为一个或多个HBase扫描,并编排执行以生成标准的JDBC结果集。直接使用HBase API...转载 2019-10-17 16:47:06 · 703 阅读 · 0 评论 -
flume监控Oracle表变化增量抽取数据到kafka
1.涉及到的软件框架及版本号系统及软件 版本 CentOS centos7.2 JDK JDK1.8 Flume flume-1.9.0 kafka kafka_2.11-0.11.0.3 zookeper oracle 2.zookeper单机版安装3.kafka单机版安装4.flume安装5.flume-ng-sql-source安..原创 2020-09-08 16:00:41 · 962 阅读 · 2 评论 -
Hive学习之路 (四)Hive的连接3种连接方式
目录一、CLI连接二、HiveServer2/beeline1、修改 hadoop 集群的 hdfs-site.xml 配置文件2、修改 hadoop 集群的 core-site.xml 配置文件三、Web UI一、CLI连接进入到 bin 目录下,直接输入命令:[hadoop@hadoop3 ~]$hiveSLF4J: Class path c...转载 2019-10-15 17:07:02 · 436 阅读 · 0 评论 -
Hive学习之路 (一)Hive初识
目录Hive 简介什么是Hive为什么使用 HiveHive 特点Hive 和 RDBMS 的对比Hive的架构1、用户接口: shell/CLI, jdbc/odbc, webui Command Line Interface2、跨语言服务: thrift server 提供了一种能力,让用户可以使用多种不同的语言来操纵hive3、底层的Driver: 驱动...转载 2019-10-14 15:20:07 · 208 阅读 · 0 评论 -
Hive为什么要启用Metastore?
相关概念1.Metadata概念:元数据包含用Hive创建的database、table等的元信息。元数据存储在关系型数据库中。如Derby、MySQL等。2.Metastore作用:客户端连接metastore服务,metastore再去连接MySQL数据库来存取元数据。有了metastore服务,就可以有多个客户端同时连接,而且这些客户端不需要知道MySQL数据库的用户名和密码...转载 2019-10-19 11:08:02 · 646 阅读 · 0 评论 -
Hive学习之路 (五)hive使用beeline配置远程连接
hive以hadoop集群为基础,提供hdfs的SQL支持;hive一般可以以mysql为元数据存储,默认Derby;hadoop,hive安装自行百度吧;介绍hive的远程访问: 未配置之前使用beeline的话,每次都要为连接输入用户名密码,较为麻烦; 实现目标:在非集群节点上敲beeline命令,直接进入到hive的命令行1,在hive服务的安装节点的hive-...转载 2019-10-15 17:12:47 · 1131 阅读 · 0 评论 -
Hue安装部署(Centos 7.2)
Hue安装部署(Centos 7.2)2017-09-13 11:17:03小强签名设计阅读数 4635更多分类专栏:大数据生态圈版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。本文链接:https://blog.youkuaiyun.com/m0_37739193/article/details/77963240一,HUE...转载 2019-10-18 18:03:19 · 474 阅读 · 1 评论 -
搭建完全分布式CDH6.3.2详细教程(附安装包下载地址)
1、概述 1.1、简介 Cloudera Manager(简称CM)是Cloudera公司开发的一款大数据集群安装部署利器,这款利器具有集群自动化安装、中心化管理、集群监控、报警等功能,使得安装集群从几天的时间缩短在几小时以内,运维人员从数十人降低到几人以内,极大的提高集群管理的效率。 CDH (Cloudera’s Distribution, including Apache Hadoop),是Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的Apache Hadoop构建,并集成原创 2020-10-25 09:37:57 · 5124 阅读 · 8 评论 -
hadoop完全分布式运行模式安装
基本环境及软件:软件版本 软件包 centos-6.4 JDK-1.8 jdk-8u191-linux-x64.tar.gz hadoop-2.6.0 hadoop-2.6.0-cdh5.7.0.tar.gz 软件安装包官网下载地址 :http://archive-primary.cloudera.com/cdh5/cdh/5/设置免密码登录...原创 2018-11-29 15:37:37 · 622 阅读 · 0 评论 -
Flink入门案例-wordCount
开发工具官方建议使用Intellij IDEA,因为它默认集成scala和maven环境,使用更加方便开发flink程序,可以使用java或者scala语言。个人建议,使用scala,因为实现起来更加简洁。使用java代码实现函数式编程比较别扭。建议使用maven国内镜像仓库地址(1)国外仓库下载较慢,可以使用国内阿里云的maven仓库(2)注意:如果发现国内源下载提示找不...原创 2020-03-26 21:29:06 · 745 阅读 · 0 评论 -
Flink初识
Flink简介Apache Flink 是一个开源的分布式,高性能,高可用,准确的流处理框架。主要由 Java 代码实现。支持实时流(stream)处理和批(batch)处理,批数据只是流数据的一个极限特例。Flink原生支持了迭代计算、内存管理和程序优化。Flink架构图Flink基本组件介绍Data Source: 负责接收数据 Trans...原创 2020-03-26 10:31:10 · 242 阅读 · 0 评论