
Hadoop及大数据平台组件学习
文章平均质量分 73
Hadoop等
HopeWang_920
大数据,计算机,数学
展开
-
Spark系列——实验1-Spark Shell基础
Spark中Scala、Python和R的Shell操作实验环境Linux Ubuntu 16.04前提条件:Java 运行环境部署完成R语言运行环境部署完成Spark Local模式部署完成上述前提条件,我们已经为你准备就绪了。实验内容在上述前提条件下,完成Spark中Scala、Python和R的Shell操作实验步骤1.点击"命令行终端",打开新窗口2.启动Scala的ShellScala是Spark默认的语言,在命令行终端中输入下面的命令即可启动Scala Shell原创 2020-11-26 11:17:17 · 1048 阅读 · 0 评论 -
Spark系列——运行模式(三)Yarn模式配置(详解)
yarn模式00_介绍Spark客户端直接连接Yarn,不需要额外构建Spark集群。有yarn-client和yarn-cluster两种模式,主要区别在于:Driver程序的运行节点。yarn-client:Driver程序运行在客户端,适用于交互、调试,希望立即看到app的输出。yarn-cluster:Driver程序运行在由RM(ResourceManager)启动的AP(APPMaster)适用于生产环境。Yarn运行模式如图:01_配置1.1,修改hadoop的配置文件 yar原创 2020-10-03 16:59:11 · 4156 阅读 · 0 评论 -
Spark系列——运行模式(二)standalone模式及其历史服务,HA的配置(详解)
二,standalone模式已经安装好java(java1.8.0_241)已经安装好hadoop(hadoop2.10.0)2.1复制spark,并命名为spark-standalonecp -r spark-2.4.0-bin-hadoop2.7 spark-startalone2.2进入conf,配置spark-env.sh,确定mastercd conffor i in .template; do mv ${i} ${i%.}; donevi spark-env.shSPARK_原创 2020-10-03 16:33:35 · 600 阅读 · 1 评论 -
spark系列——运行模式(一)local模式配置(详解)
spark----local模式1, 了解内容1.Spark官网地址http://spark.apache.org/2.文档查看地址https://spark.apache.org/docs/2.4.0/3.下载地址https://spark.apache.org/downloads.html2 ,重要角色2.1 Driver(驱动器)Spark的驱动器是执行开发程序中的main方法的进程。它负责开发人员编写的用来创建SparkContext、创建RDD,以及进行RDD的转化操作和行动操原创 2020-09-30 18:13:43 · 4178 阅读 · 0 评论 -
Spark系列——概述篇
序:Spark是一个并行计算框架,它是基于内存计算的。可用于构建大型的、低延迟的数据分析应用程序。1,Spark特点运行速度快:这个速度快它是相对Hadoop的mapreduce来讲的:Spark使用先进的DAG(Directed Acyclic Graph,有向无环图)执行引擎,以支持循环数据流与内存计算,基于内存的计算速度可比Hadoop MapReduce快上百倍,基于磁盘的计算速度差不多快十倍;容易使用:主要是因为它支持多种语言进行编程:Spark支持使用Scala、Java、Pytho原创 2020-09-30 16:41:17 · 368 阅读 · 0 评论 -
hive实例操作
Hive操作演示在usr下,mkdir /wanghadoop fs -mkdir /upload hadoop fs -chmod g+w /upload 上传数据[root@master wang]# hadoop fs -put emp.csv /upload[root@master wang]# hadoop fs -put dept.csv /upload服务端:hiveserver2 &客户端:使用anonymous登录beeline -u jdbc:hi原创 2021-01-18 22:08:45 · 584 阅读 · 0 评论 -
Hive远程模式 Remote安装
Hive安装配置1. Hive介绍Hive的用途方便对文件及数据的元数据进行管理,提供统一的元数据管理方式提供更加简单的方式来访问大规模的数据集,使用SQL语言进行数据分析metadata概念hdfs的元数据保存在namenode里,hive的元数据要放在数据库里,它是一个类似于表的格式,方便后面在做SQL转化的时候使用,用SQL语句可以直接查询访问metadata包含用Hive创建的database、table等的元信息metadata存储在关系型数据库中,如Der原创 2021-01-18 22:05:22 · 657 阅读 · 0 评论 -
更为详细,快速的学习HBase,你值得拥有!
第1章HBase简介1.1 HBase定义HBase是一种分布式、可扩展、支持海量数据存储的NoSQL数据库。1.2HBase数据模型逻辑上,HBase的数据模型同关系型数据库很类似,数据存储在一张表中,有行有列。但从HBase的底层物理存储结构(K-V)来看,HBase更像是一个multi-dimensional map。1.2.1HBase逻辑结构1.2.2HBase物理存储结构1.2.3数据模型1)Name Space 命名空间,类似于关系型数据库的..原创 2021-01-18 21:56:07 · 198 阅读 · 0 评论 -
搭建---Eclipse视图操作Hdfs及HDFS API---java
目录一,连接hdfs0.用host管理工具添加1.配hadoop插件2.启动eclipse,再配置其他项二,HDFS API---java1.解压hadoop,配置环境变量2.把另外两个文件放进hadoop的bin下,一个是hadoop.dll,一个是winutils.exe3.hadoop的环境变量添加到的eclipse中:windows->prefence-->搜索hadoop,导入hadoop的安装目录4.创建一个java工程,使用java API.原创 2020-12-07 22:21:27 · 637 阅读 · 0 评论 -
稳了!centos7安装mysql5.7
目录1.安装wegt2.下载mysql3.安装mysql4.初始化mysql并为mysql设置登录密码5.启动mysql服务,并查看其状态6.进入mysql,查看数据库7.为方便使用,设置一下,使windows下的navicat可以连接linux中的mysql1.安装wegt[root@master ~]# yum install wget2.下载mysql[root@master ~]# wget http://repo.mysql.com/my...原创 2020-12-06 16:43:33 · 188 阅读 · 0 评论 -
必须要掌握的【Hbase Shell】
目录Hbase Shell一,基本命令二,数据模型三,表的管理四,表数据的增删改查五,hbase数据迁移的importtsvHbase Shell启动[root@master conf]# hbase shellSLF4J: Class path contains multiple SLF4J bindings.SLF4J: Found binding in [jar:file:/usr/hadoop/hbase-1.6.0/lib/slf4j-log4j12-1.7.原创 2020-12-06 13:02:31 · 691 阅读 · 0 评论 -
大数据平台——HBase安装配置
HBase安装1.环境变量配置将安装包上传至CentOS中,解压安装包到hadoop目录下tar -zxvf hbase-1.6.0-bin.tar.gz -C /usr/hadoop配置环境变量vi /etc/profile在末尾添加以下代码,保存退出export HBASE_HOME=/usr/hadoop/hbase-1.6.0export PATH=$HBASE_HOME/bin:$PATH生效配置source /etc/profile验证hbase version原创 2020-10-03 22:37:51 · 313 阅读 · 0 评论 -
大数据平台——sqoop的安装与配置
Sqoop安装安装前提是已经具备Java和Hadoop的环境一,安装1.下载并解压1)下载地址:http://mirrors.hust.edu.cn/apache/sqoop/1.4.6/2)解压安装包tar -zxvf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz2.修改配置文件Sqoop的配置文件与大多数大数据框架类似,在sqoop根目录下的conf目录。1)切换到sqoop,,,下面的conf,改个sqoop-env.sh名字mv sqoop原创 2020-10-03 22:35:41 · 916 阅读 · 0 评论 -
大数据平台——HBase安装配置详解
HBase安装配置1.环境变量配置将安装包上传至CentOS中,解压安装包到hadoop目录下tar -zxvf hbase-1.3.6-bin.tar.gz -C /usr/hadoop在hadoop目录下创建zookeeper文件夹mkdir zookeeper配置环境变量,vi /etc/profile在末尾添加以下代码,保存退出export HBASE_HOME=/usr/hadoop/hbase-1.3.6export PATH=$HBASE_HOME/b原创 2020-11-27 10:48:28 · 876 阅读 · 0 评论 -
大数据平台——flume开发
Flume1. Flume产生背景1.1 问题的产生HDFS、MapReduce、HBase 数据都是老板给你的你在工作中需要代码处理一个业务,老板只会提需求,你首要知道数据类型 数据长什么样子。订单数据、用户数据、商品数据都是存储在mysql中,效率高,是因为select*from goods where name like %s%某个商品男的看到多,还是女的看的多,数据库里面没有!也就是说数据库会存储数据,但有些业务也没有数据!所以我们要收集数据!1.2 收集数据数据来源:文件原创 2020-10-03 22:26:45 · 558 阅读 · 2 评论 -
大数据平台——HDFS的Shell操作 (1)
HDFS的Shell操作1.语法介绍1.1 通用语法hdfs dfs [选项]1.2 创建文件夹hdfs dfs -mkdir [-p]<paths>1.3 列出文件、目录[-d] 返回path[-h] 人性化显示大小(human-readble)[-R] 级联显示path下的目录hdfs dfs -ls [-d][-h][-R]<paths>显示级联目录hdfs dfs -ls -R <paths>1.4 新建文件hdfs dfs -原创 2020-11-27 10:48:52 · 419 阅读 · 0 评论 -
大数据平台——Zookeeper安装配置
Zookeeper安装配置1. 环境配置将安装包上传至CentOS中,解压安装包到hadoop目录下tar -zxvf apache-zookeeper-3.5.7-bin.tar.gz -C /usr/hadoopmv apache-zookeeper-3.5.7-bin/更名为zookeeper-3.5.7,在它的conf下修改Zookeeper配置文件cp zoo_sample.cfg zoo.cfg tickTime=2000clientPort=2181initLimit=原创 2020-09-30 17:33:19 · 173 阅读 · 0 评论 -
大数据平台——Hadoop环境配置
1. 虚拟机配置版本:VM15中安装了centos7,镜像:CentOS-7-x86_64-Minimal-1908 ;hadoop2.10.0,jdk1.8.0_2411.1 安装CentOS系统不建议安装CentOS最新版本。注:本文使用VMWare进行配置,若使用VirtualBox配置时,除虚拟机网络配置略有不同外,其他一致。1.2 网络连接介绍1.桥接模式:虚拟机和物理机连的是同一个网络,虚拟机和物理机是并列关系,地位是相当的。无论是虚拟系统还是真实系统,只要在同一个网段下,相互之间就原创 2020-09-30 17:25:47 · 2219 阅读 · 1 评论