
大数据
文章平均质量分 80
花菜回锅肉
这个作者很懒,什么都没留下…
展开
-
【数据仓库】hadoop web UI 增加账号密码认证
1 hadoop提供的simple认证 很鸡肋,没啥用,任意用户皆可访问;2 在hadoop 前面加上nginx 代理,并开启登录认证,将hadoop置于内网环境,很好的解决了hadoop的安全问题。3 以上是基于伪分布式部署前提下的安全措施,目前来看,能很好解决hadoop被攻击的问题。原创 2025-01-04 14:57:05 · 845 阅读 · 0 评论 -
【数据仓库】hadoop3.3.6 安装配置
该文档是基于hadoop3.2.2版本升级到hadoop3.3.6版本,所以有些配置,是可以不用做的,下面仅记录新增操作,其他操作参见其他文章Hadoop3.2.1安装-单机模式和伪分布式模式。原创 2024-12-31 17:30:26 · 1501 阅读 · 0 评论 -
【数据仓库】hive on Tez配置
前提是hive4.0+hadoop3.2.2数仓已搭建完成,现在只是更换其执行引擎 为Tez。搭建可参考文章。原创 2024-12-31 17:29:01 · 1515 阅读 · 0 评论 -
【数据仓库】SparkSQL数仓实践
可以看到之前在hive+hadoop数仓下建的库都可以通过spark-sql 查出来了,因为两者共用了一个metastore服务,元数据是一样的,数仓地址也是一样的。1 hive 4.0移除了saprk支持,只能使用MR和Tez,意味着往后版本,hive on spark就不存在了,若想使用,需要将hive换到4,0以前的版本;这也是为什么在hive sql 会话下,执行。由于spark-sql 使用的元数据管理是hive的元数据服务,所以,spark-sql的语法可以理解为和hive SQL是一样的。原创 2024-12-28 10:14:52 · 1358 阅读 · 0 评论 -
【数据仓库】spark大数据处理框架
Spark是一个性能优异的集群计算框架,广泛应用于大数据领域。类似Hadoop,但对Hadoop做了优化,计算任务的中间结果可以存储在内存中,不需要每次都写入HDFS,更适用于需要迭代运算的算法场景中。Spark专注于数据的处理分析,而数据的存储还是要借助于Hadoop分布式文件系统HDFS等来实现。复杂的批量数据处理基于历史数据的交互式查询基于实时数据流的数据处理Spark技术栈基本可以解决以上三种场景问题。原创 2024-12-28 10:04:19 · 1664 阅读 · 0 评论 -
hive+hadoop架构数仓使用问题记录
按照日志提示,及搜索各大技术博客,要么是按日志提示在mapred-site.xml加配置,要么是在yarn-site.xml 文件修改yarn.application.classpath配置,但是自己按提示改完后,均无法解决问题。经过再次复现尝试,mapred-site.xml和yarn-site.xml 文件要配置,hadoop-env.sh文件也要配置,然后依次重启hdfs 和 hive相关服务,即可生效。hadoop体系在集群部署时,需要部署两个集群,一个是hdfs集群,一个是yarn集群。原创 2024-12-12 18:09:02 · 1083 阅读 · 0 评论 -
hive SQL常用语法
是SQL语言集中对数据库表或者库结构进行创建、删除、修改等操作语言。核心语法由create alter drop三个组成。DDL不涉及表内部数据操作。1 hive SQL的脚本语法跟MySQL很像,基本可以说是相同2 数仓的目的是为了对海量历史数据进行分析,使用hiveSQL进行分析,无非是以上语法的组合使用;MySQL也有以上语法,能用于数据分析吗?区别是啥?答案是肯定可以的。MySQL用于少量数据的分析,hive+ 数仓用于海量数据的分析。为啥呢?原创 2024-12-12 18:08:35 · 1082 阅读 · 0 评论 -
hive+hadoop架构数仓使用
hive数仓里的表有两个维度,元数据(数据表结构)和数据文件,其中元数据存储到MySQL上,数据文件存储到hdfs上。原创 2024-12-12 18:08:01 · 1793 阅读 · 0 评论 -
# DBeaver 连接hive数仓
1、关键在于驱动下载。原创 2024-11-24 20:38:57 · 447 阅读 · 0 评论 -
【数据仓库】hive + hadoop数仓搭建实践
原因是/tmp/hive/_resultscache_目录权限问题,/tmp/hive/_resultscache_ 文件夹 所属用户hadoop,权限为所有者777,但组和其他用户权限都为0,即只有hadoop用户有rwx权限,其他用户无权限。其中,hive.metastore.warehouse.dir 目录,得是hdfs分布式文件系统下的目录,这个很重要,若是在Linux本地文件系统下创建该目录,后面是会报错的。由于资源不足,搭建伪分布式,利用Hadoop的HDFS分布式存储功能,可以查看搭建教程。原创 2024-11-14 18:17:05 · 1701 阅读 · 0 评论 -
hadoop分布式文件系统常用命令
搭建完hadoop后,会生成一个hdfs的分布式文件系统。HDFS是一个逻辑上的文件系统,它存储在Hadoop集群的多个节点上,而不是单个机器的本地磁盘上。1 这些知识在大数据学习中应该算是基础中的基础了,理解不了这些,在部署大数据相关组件时,会遇到非常大的坑;2 区别记住一句话,相互独立,命令相似;原创 2024-11-14 18:06:48 · 781 阅读 · 0 评论 -
hadoop dfs web页面访问增加鉴权
装好了Hadoop,通过浏览器访问,发现竟然不需要鉴权就能访问,且暴露了很多服务器层文件路径信息,基于多年积累的安全意识,必须得配置些鉴权信息,就有了该文,仅做学习记录,下次自己再装时能提高效率。原创 2024-09-04 22:59:47 · 996 阅读 · 0 评论 -
Spark开发学习之RDD编程
Spark开发学习之RDD编程什么是RDDRDD(Resilient Distributed Dataset)是分布式数据集,是Spark设计里最为核心的概念。在RDD出来之前,所有的分布式批处理计算系统都是从存储中读取数据到计算完成后将结果写入存储的模型,这种计算模型在处理数据集迭代运算时效率不高,为了解决这一问题,RDD应运而生。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-2kjsbB89-1626070161978)(spark-structure.png)]原创 2021-07-12 14:15:20 · 361 阅读 · 0 评论 -
Spark开发学习之使用idea开发Spark应用
Spark学习之使用idea开发Spark应用该文章是基于jdk1.8,idea开发工具,maven都配置好的前提下进行讲述的。背景由于已经在远程centos服务器上部署了saprk服务,但基于spark的应用程序的代码却是在本地idea开发的,那么如何能让本地开发的spark代码能在远程spark服务上运行调试便成了迫切需要解决的问题。idea下scala插件安装idea开发工具,File->setting->Plugins->Browse respositories,搜索sc原创 2021-07-09 15:05:04 · 2090 阅读 · 0 评论 -
Spark开发学习之Scala环境搭建
Spark开发实战之Scala环境搭建Scala和Spark关系是,spark是用scala语言开发的。若想使用Scala开发Spark下的应用程序,并编译运行,则需要配置Scala开发环境,否则可以先不用装,后续用到时再装。概述Scala是一门多范式编程语言,设计初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行在Java虚拟机上,可以兼容现有的Java程序。Scala源代码被编译成Java字节码,并可以调用现有的Java类库。语法既然是一门编程语言,那必然会有自己的语法,具体不再原创 2021-07-08 12:34:28 · 676 阅读 · 0 评论 -
Spark3.1.2单机安装部署
spark3.1.2 单机安装部署概述Spark是一个性能优异的集群计算框架,广泛应用于大数据领域。类似Hadoop,但对Hadoop做了优化,计算任务的中间结果可以存储在内存中,不需要每次都写入HDFS,更适用于需要迭代运算的算法场景中。Spark专注于数据的处理分析,而数据的存储还是要借助于Hadoop分布式文件系统HDFS等来实现。大数据问题场景包含以下三种:复杂的批量数据处理基于历史数据的交互式查询基于实时数据流的数据处理Spark技术栈基本可以解决以上三种场景问题。下载下载原创 2021-07-08 11:44:25 · 3844 阅读 · 3 评论 -
Hadoop3.2.1安装-单机模式和伪分布式模式
Hadoop入门篇概述Hadoop是使用Java编写的,是为了解决大数据场景下的两大问题,分布式存储和分布式处理而诞生的,包含很多组件、套件。需要运行在Linux系统下。主要包括HDFS 和 MapReduce两个组件。下载安装下载下载地址 https://archive.apache.org/dist/hadoop/common/选择合适自己的tar.gz版本下载,该文档选择V3.2.1。Hadoop是Java开发的,所以依赖jdk运行,要先安装jdkHadoop和jdk版本对应关系原创 2021-07-06 16:09:26 · 971 阅读 · 0 评论