
数据仓库
文章平均质量分 73
花菜回锅肉
这个作者很懒,什么都没留下…
展开
-
【数据仓库】hadoop web UI 增加账号密码认证
1 hadoop提供的simple认证 很鸡肋,没啥用,任意用户皆可访问;2 在hadoop 前面加上nginx 代理,并开启登录认证,将hadoop置于内网环境,很好的解决了hadoop的安全问题。3 以上是基于伪分布式部署前提下的安全措施,目前来看,能很好解决hadoop被攻击的问题。原创 2025-01-04 14:57:05 · 845 阅读 · 0 评论 -
【数据仓库】hadoop3.3.6 安装配置
该文档是基于hadoop3.2.2版本升级到hadoop3.3.6版本,所以有些配置,是可以不用做的,下面仅记录新增操作,其他操作参见其他文章Hadoop3.2.1安装-单机模式和伪分布式模式。原创 2024-12-31 17:30:26 · 1501 阅读 · 0 评论 -
【数据仓库】hive on Tez配置
前提是hive4.0+hadoop3.2.2数仓已搭建完成,现在只是更换其执行引擎 为Tez。搭建可参考文章。原创 2024-12-31 17:29:01 · 1515 阅读 · 0 评论 -
【数据仓库】SparkSQL数仓实践
可以看到之前在hive+hadoop数仓下建的库都可以通过spark-sql 查出来了,因为两者共用了一个metastore服务,元数据是一样的,数仓地址也是一样的。1 hive 4.0移除了saprk支持,只能使用MR和Tez,意味着往后版本,hive on spark就不存在了,若想使用,需要将hive换到4,0以前的版本;这也是为什么在hive sql 会话下,执行。由于spark-sql 使用的元数据管理是hive的元数据服务,所以,spark-sql的语法可以理解为和hive SQL是一样的。原创 2024-12-28 10:14:52 · 1358 阅读 · 0 评论 -
【数据仓库】spark大数据处理框架
Spark是一个性能优异的集群计算框架,广泛应用于大数据领域。类似Hadoop,但对Hadoop做了优化,计算任务的中间结果可以存储在内存中,不需要每次都写入HDFS,更适用于需要迭代运算的算法场景中。Spark专注于数据的处理分析,而数据的存储还是要借助于Hadoop分布式文件系统HDFS等来实现。复杂的批量数据处理基于历史数据的交互式查询基于实时数据流的数据处理Spark技术栈基本可以解决以上三种场景问题。原创 2024-12-28 10:04:19 · 1664 阅读 · 0 评论 -
hive+hadoop架构数仓使用问题记录
按照日志提示,及搜索各大技术博客,要么是按日志提示在mapred-site.xml加配置,要么是在yarn-site.xml 文件修改yarn.application.classpath配置,但是自己按提示改完后,均无法解决问题。经过再次复现尝试,mapred-site.xml和yarn-site.xml 文件要配置,hadoop-env.sh文件也要配置,然后依次重启hdfs 和 hive相关服务,即可生效。hadoop体系在集群部署时,需要部署两个集群,一个是hdfs集群,一个是yarn集群。原创 2024-12-12 18:09:02 · 1083 阅读 · 0 评论 -
hive SQL常用语法
是SQL语言集中对数据库表或者库结构进行创建、删除、修改等操作语言。核心语法由create alter drop三个组成。DDL不涉及表内部数据操作。1 hive SQL的脚本语法跟MySQL很像,基本可以说是相同2 数仓的目的是为了对海量历史数据进行分析,使用hiveSQL进行分析,无非是以上语法的组合使用;MySQL也有以上语法,能用于数据分析吗?区别是啥?答案是肯定可以的。MySQL用于少量数据的分析,hive+ 数仓用于海量数据的分析。为啥呢?原创 2024-12-12 18:08:35 · 1082 阅读 · 0 评论 -
hive+hadoop架构数仓使用
hive数仓里的表有两个维度,元数据(数据表结构)和数据文件,其中元数据存储到MySQL上,数据文件存储到hdfs上。原创 2024-12-12 18:08:01 · 1793 阅读 · 0 评论 -
# DBeaver 连接hive数仓
1、关键在于驱动下载。原创 2024-11-24 20:38:57 · 447 阅读 · 0 评论 -
【数据仓库】hive + hadoop数仓搭建实践
原因是/tmp/hive/_resultscache_目录权限问题,/tmp/hive/_resultscache_ 文件夹 所属用户hadoop,权限为所有者777,但组和其他用户权限都为0,即只有hadoop用户有rwx权限,其他用户无权限。其中,hive.metastore.warehouse.dir 目录,得是hdfs分布式文件系统下的目录,这个很重要,若是在Linux本地文件系统下创建该目录,后面是会报错的。由于资源不足,搭建伪分布式,利用Hadoop的HDFS分布式存储功能,可以查看搭建教程。原创 2024-11-14 18:17:05 · 1701 阅读 · 0 评论 -
hadoop分布式文件系统常用命令
搭建完hadoop后,会生成一个hdfs的分布式文件系统。HDFS是一个逻辑上的文件系统,它存储在Hadoop集群的多个节点上,而不是单个机器的本地磁盘上。1 这些知识在大数据学习中应该算是基础中的基础了,理解不了这些,在部署大数据相关组件时,会遇到非常大的坑;2 区别记住一句话,相互独立,命令相似;原创 2024-11-14 18:06:48 · 781 阅读 · 0 评论 -
python 连接clickhouse数据库及简单操作
最近研究了下python爬虫,想爬取一些数据存储到clickhouse里,进行分析。由于是新手,搜了好多教程,也踩了好几天的坑,记录一下,防止以后再走弯路。遇到的问题主要集中在建立连接语句上,client = Client(host=‘xx.xx.xx.xx’, port=8900, user=‘default’, password=‘xxxxx@xxxxx’, database=‘default’)参数赋值方式。使用 host= 格式赋值端口用错问题。原创 2024-01-18 20:51:40 · 3197 阅读 · 0 评论 -
clickhouse安装及简单使用
clickhouse设计比较精简,具有强大的数据写入性能、极其高效的查询性能、高效压缩存储,单机部署性能丝毫不逊色于传统的大数据集群。由于使用体验简单直接,使得运维工作同样变的简单。版本迭代相当迅速,主动兼容了jdbc、mysql和postgresql这些成熟产品,周边生态成熟。非常适合用来搭建数据仓库。clickhouse的官网文档有中文版,写的还是比较全的,可以多去参考查阅。原创 2024-01-18 18:11:14 · 4537 阅读 · 0 评论 -
hadoop dfs web页面访问增加鉴权
装好了Hadoop,通过浏览器访问,发现竟然不需要鉴权就能访问,且暴露了很多服务器层文件路径信息,基于多年积累的安全意识,必须得配置些鉴权信息,就有了该文,仅做学习记录,下次自己再装时能提高效率。原创 2024-09-04 22:59:47 · 996 阅读 · 0 评论 -
flume taildir source 采集合并日志
taildir source 可以监控一批文件,实时采集信息,且支持断点续传(agent重启后不会重复采集)该场景下,同时监控两个日志文件,一个是docker容器日志,一个是MySQL的系统日志1、使用file_roll sink,重启flume 会新创建一个储存文件,不管source是 exec 还是taildir2、taildir断点续传只是在内容上接续,但不是在原文件中以上是个人实验所得,若有不合适地方,欢迎大家指正。原创 2024-01-09 14:52:13 · 583 阅读 · 0 评论 -
flume 使用 exec 采集容器日志,转储磁盘
flume 使用 exec 采集容器日志,转储磁盘在该场景下,docker 服务为superset,flume 的sources 选择 exec , sinks选择 file roll 。原创 2024-09-04 23:05:17 · 865 阅读 · 1 评论 -
flume 安装及简单使用
flume 安装及简单示例原创 2024-01-03 10:15:26 · 634 阅读 · 1 评论 -
开源可视化大屏superset Docker环境部署
superset是俄罗斯开源的一款可视化大屏,用于数据可视化探索,含有丰富的图表组件,可以支持接入各种数据源。原创 2024-09-04 23:06:43 · 1873 阅读 · 0 评论