
ETL
文章平均质量分 74
不加班程序员
小白一枚
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
将elasticsearch数据存储到excel中
由于elasticsearch数据在线上,偶尔需要将数据导到本地环境进行分析。目前有需求是将数据导入到excel表中,下面是我在用的实现方案。首先通过elasticdump组件将线上指定的index导出成文本文件。2、将生成的文本文件下载到指定位置存储,以我本地电脑为例。1、将线上elasticsearch数据备份成文件。3、通过python脚本将数据写入到excel。原创 2024-01-29 10:25:17 · 2479 阅读 · 0 评论 -
Hive常见问题汇总
order by:order by是将数据按照指定的列排序输出,并且会改变数据的分区。cluster by:cluster by是对表进行分桶,每个分桶内的数据按照指定的列排序,并且会根据指定的列生成对应的分区文件。sort by:sort by是将数据按照指定的列排序输出,但不改变数据的分区,也就是说,sort by只保证每个分区内的数据有序,但不保证分区之间的顺序。增加Reduce数量:对于数据倾斜比较严重的情况,可以增加Reduce任务的数量,将数据划分到更多的节点上处理,从而减轻单个节点的负担。原创 2024-01-24 15:02:04 · 829 阅读 · 0 评论 -
数据仓库建模
在ER模型中抽象出了有实体、关系、属性三种类别,在现实世界中,每一个操作型事件,基本都是发生在实体之间的,伴随着这种操作事件的发生,会产生可度量的值,而这个过程就产生了一个事实表,存储了每一个可度量的事件。比如商品,单一主键:商品ID,属性包括产地、颜色、材质、尺寸、单价等, 但并非属性一定是文本,比如单价、尺寸,均为数值型描述性的,日常主要的维度抽象包括:时间维度表、地理区域维度表等。通过将数据按照多个维度进行切片和切块,可以支持复杂的查询和分析需求,如数据切片、钻取、滚动等操作。原创 2024-01-23 17:02:28 · 1282 阅读 · 0 评论 -
数据仓库-相关概念
数据仓库是一个用于集成、存储和管理大量数据的系统。它用于支持企业决策制定过程中的数据分析和报告需求。数据仓库从多个来源收集和整合数据,并将其组织成易于查询和分析的结构。数据仓库的主要目标是提供高性能的数据访问和分析能力,以便用户可以从不同的角度和层次上理解和解释数据。它通常包含历史数据,用于支持趋势分析和预测模型的建立。数据仓库不仅仅是一个存储数据的地方,它还提供了一系列工具和技术来支持数据清洗、转换、集成和加载等过程。原创 2024-01-23 13:40:45 · 1859 阅读 · 0 评论 -
flume自定义拦截器
flume 自定义拦截器原创 2024-01-22 15:29:09 · 763 阅读 · 0 评论 -
flume案例
在构建数仓时,经常会用到flume接收日志数据,通常涉及到的组件为kafka,hdfs等。下面以一个flume接收指定topic数据,并存入hdfs的案例,大致了解下flume相关使用规则。原创 2024-01-22 15:18:21 · 1322 阅读 · 0 评论 -
Flume中的HDFS Sink配置
Flume中的HDFS Sink配置参数说明type:hdfspath:hdfs的路径,需要包含文件系统标识,比如:hdfs://namenode/flume/webdata/filePrefix:默认值:FlumeData,写入hdfs的文件名前缀fileSuffix:写入 hdfs 的文件名后缀,比如:.lzo .log等。inUsePrefix:临时文件的文件名前缀...转载 2019-04-03 15:29:55 · 800 阅读 · 1 评论