
java-大数据
文章平均质量分 87
介绍Hadoop、hive、Hbase、Kafka、Storm、Spark等
码仆的逆袭
不积跬步,无以至千里; 不积小流,无以成江海
展开
-
sqoop的安装和使用
sqoop的安装和使用准备工具安装步骤sqoop的使用准备工具一部安装好hadoop和hive的虚拟机sqoop压缩包安装步骤上传解压将mysql的驱动jar包,hive的hive-exec的jar包放到sqoop的lib目录下配置sqoop的环境变量export SQOOP_HOME=/opt/software/sqoop/sqoop-1.4.7.bin__hadoop-...原创 2019-05-09 11:03:16 · 325 阅读 · 0 评论 -
dsg_14 Scala
Scalascala语言的定义scala的语法定义常量、变量定义常量和变量时指定数据类型scala的标识符scala的函数和方法apply方法条件表达式打印输出控制台输入scala语言的定义scala语言是java的一种脚本语言,书写简单方便,使用scala语言首先需要安装scala解释器scala-2.13.3.msiscala的语法定义常量、变量 //定义常量 val a = 10; //定义变量 var b = 10;定义常量和变量时指定数据类型 var a : String =原创 2020-11-26 20:59:40 · 193 阅读 · 0 评论 -
dsg_09 zookeeper
zookeeperzookeeper的介绍zookeeper的安装zookeeper的介绍hadoop高可用配置HA的自动容灾(自动切换激活态)zookeeper是分布式协同服务,用于管理集群zookeeper是轻量级的进程,资源占用很小,一般是与其他进程一起的zookeeper是分布式应用,实现分布式读写技术zookeeper提供了以下服务:Naming service(名称服务),按名称区分集群中的节点Configuration management(配置管理),对加入节点的最新化处原创 2020-10-07 09:24:00 · 191 阅读 · 0 评论 -
dsg_07 Hive
Hivehive的作用hive安装配置hive安装hive的作用hive是在hadoop上处理结构化数据的数据仓库,hive不是关系型数据库,不适合在线数据分析处理,速度很慢,是延迟性很高的操作,不适用于实时查询和行级更新,hive存储数据结构在关系型数据库中,处理数据在hdfs。hive查询首先去关系型数据库中查询数据结构,然后将数据结构交给执行引擎去执行,得到数据。hive安装配置hive安装安装hive首先必须安装jdk和hadoop #1. 上传并解压Hive包,参数C:修改解压到的目录原创 2020-09-28 20:26:08 · 220 阅读 · 0 评论 -
scala的基础
scala的基础scala的安装scala的基础知识scala的基本框架scala中的数据类型scala定义变量scala定义常量scala的运算符scala中的对象调用方法条件语句控制台输入语句循环语句scala练习scala的安装安装jdk1.8版本以上安装scalascala下载地址配置scala环境变量SCALA_HOME=F:\scalaPATH=%SCALA_...原创 2019-05-29 11:15:27 · 166 阅读 · 0 评论 -
haoop简单的命令
haoop简单的命令hadoop帮助命令显示根目录下所有文件显示根目录下所有文件的大小显示根目录中文件数量移动文件flow.log到111目录下复制111目录下的flow.log文件到根目录下删除文件或文件夹本地文件复制到hdfs本地文件移动到hdfs上复制文件到本地将源目录中的所有文件排序合并到一个文件中在终端显示文件内容创建一个空文件夹创建一个空文件hadoop帮助命令hadoop fs ...原创 2019-04-26 12:25:10 · 178 阅读 · 0 评论 -
hadoop集群的搭建
hadoop集群的搭建安装Centos虚拟机安装jdk安装hadoop集群安装Centos虚拟机安装一台linux7的虚拟机,并设置静态ip地址克隆该虚拟机,并修改静态ip和主机名修改静态ip:vi /etc/sysconfig/network-scripts/ifcfg-ens33测试虚拟机能否联网:修改主机名:vi /etc/hostname重启虚拟机配置主机名与IP...原创 2019-05-02 10:16:18 · 164 阅读 · 0 评论 -
Hbase的安装和使用
Hbase的安装和使用准备工具安装步骤安装单机版的Hbase使用单机版的Hbase安装集群hbase启动集群hbase准备工具一部安装好的hadoop和zookeeper的虚拟机Hbase压缩包安装步骤安装单机版的Hbase上传解压配置Hbase的环境变量export HBASE_HOME=/opt/software/Hbase/hbase-2.0.0export PAT...原创 2019-05-11 23:23:06 · 312 阅读 · 0 评论 -
dsg_06 Hadoop
Hadoop大数据解决了两个问题分布式的概念大数据的四个特征hadoop的四个模块hadoop安装jdk的安装安装hadoop配置hadoophadoop命令大数据解决了两个问题存储(分布式存储)计算(分布式计算)分布式的概念由分布在不同主机上的进程协同在一起,才能构成整个应用大数据的四个特征体量大样式多速度快价值密度低hadoop的四个模块commonhdfshadoop yarnhadoop mapreduce(mr)hadoop安装jdk的安装安装had原创 2020-09-16 15:12:07 · 469 阅读 · 0 评论 -
flume的安装与使用
flume的安装工具准备安装步骤工具准备一部安装好的linux服务器flume压缩包 apache-flume-1.8.0-bin.tar.gz安装步骤上传flume压缩包原创 2019-05-02 11:09:04 · 136 阅读 · 0 评论 -
hive的安装与使用
hive的安装与使用准备工具上传压缩文件并解压配置hive的环境变量修改hive的配置文件在mysql上创建一个数据库hive将mysql的连接驱动放到/opt/software/hive/apache-hive-2.3.3-bin/lib下格式化启动hive准备工具一部安装好hadoop和mysql的虚拟机Hive压缩包上传压缩文件并解压tar -xvf apache-hive-2...原创 2019-05-02 16:38:20 · 550 阅读 · 0 评论 -
MapReduce之单词统计
MapReduce之单词统计原创 2019-04-27 00:44:34 · 1110 阅读 · 0 评论 -
创建scala类
创建scala类类的定义与调用类中的构造器在主构造器中定义属性伴生类和伴生对象类的继承抽象类类的定义与调用在一个scala源文件中,类的定义不需要 使用public,一个源文件可以定义多个类,都是默认publicclass Test1 { private var age = 25//scala中的属性必须初始化 //使用注释@BeanProperty可以自动生成get和set方法,但...原创 2019-06-02 16:24:41 · 2416 阅读 · 0 评论 -
dsg_11 flume
flume介绍flume的特点flume的结构组件安装flume配置flume介绍flume是收集、移动、聚合大量日志数据的服务。flume基于流数据的架构,用于在线日志分析。flume在生产和消费者之间启动协调作用。flume是基于事件的一种服务,提供了事务保证,确保消息一定被分发。flume的特点支持各种接入资源数据的类型以及接出数据类型支持水平扩展(增加节点服务器)支持竖直扩展(增加硬件,如硬盘)flume的结构组件source:接受数据,类型有多种,然后把这些数据传递到一个或原创 2020-10-30 23:06:40 · 176 阅读 · 0 评论 -
dsg_10 Hbase
HbaseHBase的介绍HBase的特征HBase的存储机制HBase的搭建HBase的介绍HBase是基于hadoop的数据库,分布式可伸缩(可任意增加或减少节点)大型数据存储,随机、实时读写数据,可以存储十亿行,百万列,版本化、非关系型,面向列的数据库。HBase的特征线性模块化扩展方式。严格一致性读写自动可配置表切割区域服务器之间自动容灾HBase支持Hadoop MR作业易于使用的Java API块缓存和布隆过滤器用于实时查询通过服务器端过滤器实现查询预测支持XML, P原创 2020-10-26 00:19:59 · 702 阅读 · 0 评论 -
安装和使用kafka
安装kafka准备工具上传解压kafka的压缩包修改配置文件server.properties为了方便运行,配置一下环境变量分发到其他机器上去启动创建主题模拟生产者和消费者准备工具一部已经安装好的zookeeper虚拟机上传kafka安装包上传解压kafka的压缩包tar -xvf修改配置文件server.properties为了方便运行,配置一下环境变量export K...原创 2019-05-02 14:58:19 · 234 阅读 · 0 评论 -
通过JAVA API 来操作HDFS
通过JAVAAPI 来操作HDFS导入依赖从本地上传文件到hdfs从hdfs上下载文件删除hdfs上的文件在hdfs上创建文件夹在hdfs上创建空的文件遍历hdfs上某个目录下的所有文件导入依赖 <dependency> <groupId>org.apache.hadoop</groupId> <art...原创 2019-04-26 14:20:15 · 595 阅读 · 0 评论 -
dsg_13 storm
stormstorm的介绍storm VS hadoopstorm的介绍storm是一个免费的,开源的,分布式的实时计算系统,吞吐量高,每秒每节点可达百万元组storm VS hadoopstormhadoop实时流处理批出理静态数据,延时高计算时无状态计算时有状态使用zk协同的主从架构无zk协同的主从架构(hapood HA高可用配置需要zk)每秒可以处理数万消息MR需要花费数分钟或数小时storm计算除非用户手动干预或者遇到异常不会主动停止M原创 2020-11-12 20:16:05 · 213 阅读 · 0 评论 -
scala高阶函数和List、Set集合
scala高阶函数和List、Set集合给函数起名匿名函数高阶函数高阶函数的案例高阶函数练习List和map集合复习一遍java集合列表(List)Set集合给函数起名格式:val 函数别名 = fun _object Test1 { def main(args: Array[String]): Unit = { val n = fun _ //给函数起名 val re...原创 2019-06-08 17:49:19 · 502 阅读 · 0 评论 -
scala的基本语法
scala的基本语法scala中函数的定义scala中过程的定义scala中异常的抓捕scala中声明数组声明定长数组声明可变数组定长数组与可变数组的区别CRUD定长数组和可变数组的转换数组中常见的算法java和scala的相互调用练习scala中函数的定义基本格式:def 函数名(形参)[:返回类型]={//方法体}//如果不是递归函数可以不指定返回类型,但递归函数必须指定返回类型...原创 2019-05-30 12:38:34 · 231 阅读 · 2 评论 -
安装zookeepr
安装并使用zookeepr准备工具解压zookeeper修改配置文件准备工具一台安装好的虚拟机zookeeper-3.4.12.tar.gz压缩包解压zookeepertar -xvf zookeeper-3.4.12.tar.gz修改配置文件重命名zoo_sample.cfg为zoo.cfgmv zoo_sample.cfg zoo.cfg修改zoo.cfg配置文件在...原创 2019-05-02 13:46:11 · 187 阅读 · 0 评论 -
scala中的map集合
scala中的map集合map集合的创建创建一个不可变的map创建一个可变的map在可变map中添加修改映射关系在可变map中删除映射关系判断map中是否存在该键遍历map集合按输入顺序排序的map元组的定义map集合的创建创建一个不可变的map不可变的map,其值是不可以被改变的 val map = Map("name"->"张三","age"->25) println(m...原创 2019-05-31 23:56:50 · 4467 阅读 · 0 评论 -
通过java API来操作Hbae
通过java API来操作Hbae准备工具启动Hbasejava操作使用java实现Hbase创建表的功能使用java实现Hbase向表中添加数据和查看所有数据的功能使用java实现查看一行记录使用java删除表中的数据使用java完成数字的累加准备工具三台安装了hadoop集群,zookeeper,Hbase集群的虚拟机启动Hbase启动Hadoop集群start-all.sh...原创 2019-05-27 12:43:40 · 320 阅读 · 0 评论 -
MapReuce之流量统计
MapReuce之流量统计准备工具开启hadooppojo层mapper层reducer层partition层,分区层job层将其打包成jar包并上传到服务器上总结准备工具一部安装过hadoop的虚拟机一份上网流量数据开启hadoopstart-all.sh上传flow.log文件hadoop fs -put /flow.log /pojo层import lombok.Da...原创 2019-04-30 14:09:46 · 295 阅读 · 0 评论