- 博客(6)
- 收藏
- 关注
原创 伪分布式搭建(hadoop,spark,scala)
(1).下载jdk安装包官网地址:https://www.oracle.com/java /technologies /javase-jdk8-downloads.html(2).卸载自带的openjdk(3).安装jdk(4).设置java变量。
2024-04-26 17:41:55
401
4
原创 HADOOP平台搭建
(4).查看"/home/hadoop/"下是否有".ssh"文件夹,且".ssh"文件下是否有两个刚 生产的无密码密钥对。(2).在每个 Slave 节点把 Master 节点复制的公钥复制到authorized_keys 文件。(1).将 Master 节点的公钥 id_rsa.pub 复制到每个 Slave 点。(4).验证两个 Slave 节点到 Master 节点无密码登录。(3).在每个 Slave 节点删除 id_rsa.pub 文件。(6).修改文件"authorized_keys"权限。
2024-04-23 19:29:20
897
1
原创 HADOOP:hive组建安装教程
opt/software/apache-hive-2.0.0-bin.tar.gz 路解压到/usr/local/src 路径下。
2024-04-09 18:28:08
754
原创 hadoop应用
它将数据从产生,传输,处理并写入目标的路径的过程抽象为数据流,在具体的数据流中,数据源支持在flume中定制数据发送方,从而支持收集各种不同协议数据。在这种情况下,MapReduce并不是不能做,而是使用后,每个MapReduce作业的输出结果都会写入到磁盘,会造成大量的磁盘IO,导致性能非常的低下。其中,键由行关键字,列关键字和时间戳构成,hbase提供了对大规模数据的随机,实时读写访问,同时,hbase中保存的数据可以使用mapreduce来处理,它将数据存储和并行计算完美结合在一起。
2024-03-14 20:14:16
406
1
原创 【大数据数据应用】
我们通常说到的hadoop包括两个部分,一是Hadoop核心技术(或者说狭义上的hadoop),对应为apache开源社区的一个项目,主要包括三部分内容:hdfs,mapreduce,yarn。随着数据量的越来越大,在一个操作系统存不下赛哦有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。寻址时间为传输时间的1%时,则为最佳状态。
2024-03-06 13:31:38
426
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人