- 博客(49)
- 收藏
- 关注
原创 Spark简介和三种部署方式
开源集群计算系统,致力于更快的处理数据是专为大规模数据处理而设计的快速通用的计算引擎Spark 可以完成各种运算,包括 SQL 查询、文本处理、机器学习等Spark由Scala语言开发,能够和Scala紧密结合。
2023-06-06 09:28:06
1268
原创 Scala 容器
不可变List(1)List默认为不可变集合(2)创建一个List(数据有顺序,可重复)(3)遍历List(4)List增加数据(5)集合间合并:将一个整体拆成一个一个的个体,称为扁平化(6)取指定数据(7)空集合Nil部分常用操作。
2023-05-31 22:05:04
141
原创 Scala基本语法
Scala注释使用和Java完全一样。注释是一个程序员必须要具有的良好编程习惯。将自己的思想通过注释先整理出来,再用代码去体现。基本语法单行注释://多行注释:/* */文档注释: /** * */
2023-05-29 17:32:47
852
原创 DataX
自检脚本: python {YOUR_DATAX_HOME}/bin/datax.py {YOUR_DATAX_HOME}/job/job.json。其他参考官方文档进行模拟写。
2023-05-08 19:43:28
94
原创 Hbase概述
HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式NoSQL数据库利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为其分布式协同服务 主要用来存储非结构化和半结构化的松散数据(列存 NoSQL 数据库) 逻辑上,HBase的数据模型同关系型数据库很类似,数据存储在一张表中,有行有列。
2023-04-24 21:56:45
137
原创 hive练习题
解决方案:拿2018-6-1与每次除出来的整数*7相加,得到每组的开始时间,结束时间是开始时间+6,然后使用字符串拼接的方法将开始时间与结束时间进行拼接,得到分组日期。2、我们主要的实现思路是如何将7天分成一组,只要7天分成了一组,就可以根据组进行group by,首先我们可以将每个日期与2018-06-01号相减,得到天数。英文名:EMPNO,ENAME,JOB,MGR,HIREDATE,SAL,BONUS,DEPTNO。字段:员工id,员工名字,工作岗位,部门经理,受雇日期,薪水,奖金,部门编号。
2023-04-18 20:07:49
100
原创 HIVE安装
shell交互Hive,用命令hive启动一个hive的shell命令行,在命令行中输入sql或者命令来和Hive交互。,其他机器可以通过客户端通过协议连接到服务器,来完成访问操作,这是生产环境用法最多的。修改hadoop的core-site.xml配置文件,改完重启hadoop即可。在安装hive之前要保证hadoop,mysql,jdk安装完毕。首先准备安装包和驱动,并将二者通过xftp传入到linux中。或者将sql语句写入文件夹,用 hive -f执行。但在使用第二种交互方式之前,需要先进行配置。
2023-04-13 20:47:46
173
原创 HA(高可用hadoop集群)与安装
9、执行同步 没有格式化的NN上执行 在另外一个namenode上面执行 这里选择node1。5、删除hadoop数据存储目录下的文件 每个节点都需要删除。8、格式化 在一台NN上执行,这里选择master。一定要先 把zk集群正常 启动起来。6、启动zookeeper 三台都需要启动。10、格式化ZK 在master上面执行。11、启动hdfs集群,在master上执行。7、启动JN 存储hdfs元数据。3、免密钥 (远程执行命令)4、修改hadoop配置文件。先删除所有的tmp文件。
2023-04-06 20:44:46
192
原创 ZooKeeper概述与安装
Zookeeper是一个高效的分布式协调服务,可以提供配置信息管理、命名、分布式同步、集群管理、数据库切换等服务。它不适合用来存储大量信息,可以用来存储一些配置、发布与订阅等少量信息。Hadoop、Storm、消息中间件、RPC服务框架、分布式数据库同步系统,这些都是Zookeeper的应用场景。Zookeeper集群中节点个数一般为奇数个(>=3),若集群中Master挂掉,剩余节点个数在半数以上时,就可以推举新的主节点,继续对外提供服务。
2023-04-06 20:42:35
178
原创 JDBC应用
一、JDBC是什么?Java DataBase Connectivity(Java语言连接数据库)二、JDBC的本质是什么?JDBC是SUN公司制定的一套接口(interface)。接口都有调用者和实现者。面向接口调用、面向接口写实现类,这都属于面向接口编程。三、为什么要面向接口编程?解耦合:降低程序的耦合度,提高程序的扩展力。多态机制就是非常典型的:面向抽象编程。(不要面向具体编程)这里需要画图带大家理解。。。四、为什么SUN制定一套JDBC接口呢?
2023-03-30 20:22:20
146
原创 Redis 集群
解决的问题:对于一些业务系统来说,写请求较少,读请求较多,那么如果使用一台Redis,那么压力较大,可以使用多台Redis形成主从结构,主节点主要负责写操作,而从节点可以分摊读请求。解决的问题:对于一些业务系统来说,写请求较少,读请求较多,那么如果使用一台Redis,那么压力较大,可以使用多台Redis形成主从结构,主节点主要负责写操作,而从节点可以分摊读请求。一个master可以有多个从节点从节点下线,只会影响读数据的性能主节点下线,则无法执行写操作。
2023-03-29 21:27:16
214
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人