自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 资源 (5)
  • 收藏
  • 关注

原创 构建实时数据仓库

同时,构建实时数据仓库需要考虑数据的实时性、可靠性和性能要求,以满足业务实时分析和查询的需求。设计和生成实时数据仪表板、可视化报表和实时监控图表,以支持业务决策和实时洞察。针对实时查询需求,设计适当的索引和数据结构,以提高实时查询性能和效率。设计合适的实时数据监控指标和报告,以监控实时数据仓库的运行状况和质量。建立实时数据监控和质量保证机制,确保实时数据的准确性和可靠性。根据实时分析和查询的需求,设计实时数据仓库的数据模型和架构。对实时数据进行流式处理和转换,以满足实时分析和查询的需求。

2023-07-18 18:55:36 1163

原创 构建离线数据仓库

具体的实施过程和环节可能因组织和项目而异,需要根据实际情况进行调整和定制。将清洗和转换后的数据加载到目标数据存储介质中,如关系型数据库、列式数据库、分布式文件系统等。设计和生成适当的数据报表、仪表板和可视化图表,以支持业务决策和洞察。对采集的数据进行清洗、处理和转换,以确保数据的准确性和一致性。建立数据质量规范和监控机制,确保数据的准确性、完整性和一致性。设计合适的数据质量指标和报告,以监控数据仓库的运行状况和质量。定期进行数据质量检查和校验,修复和清理数据中的错误和异常。

2023-07-18 18:54:00 1026

原创 大数据计算技术选型

优点:高度可扩展、内存计算、支持多种计算模型(批处理、流处理、机器学习等),比MapReduce更快速和灵活。使用场景:适用于实时数据处理、流式ETL、复杂事件处理、准实时分析等需要低延迟和状态管理的场景。使用场景:适用于离线批量处理、数据清洗、ETL(抽取、转换和加载)等需要大规模数据处理的场景。使用场景:适用于迭代式计算、实时流处理、交互式查询、机器学习等需要快速响应和灵活性的场景。使用场景:适用于实时流式处理、实时数据分析、复杂事件处理等需要低延迟和高吞吐量的场景。

2023-07-18 18:52:05 339

原创 大数据存储技术选型

使用场景:适用于需要实时查询和分析大规模结构化数据的场景,如实时分析、实时报表等。使用场景:适用于分布式环境下的大规模数据存储和实时处理,如社交网络、物联网应用等。优点:高度可扩展、容错性强、适合海量非结构化数据存储,提供高可用性和可靠性。优点:高可扩展性、容错性强、适合存储大规模数据集,支持数据并行处理。使用场景:适用于大数据存储和批量处理,如大规模日志存储、数据仓库等。使用场景:适用于大规模非结构化数据的存储和备份,如图像、音视频等。优点:高度可扩展、灵活的数据模型、支持高并发读写、容错性好。

2023-07-18 18:49:33 533

原创 Hive解析嵌套JSON数组

hive解析json数组

2022-10-25 14:24:47 2249

原创 SparkSQL小文件合并

sparksql处理flink小文件

2022-10-20 15:27:06 1119

原创 JDBC原始增删改查demo

2022-09-15 10:41:36 116

原创 Shell循环遍历日期

Shell循环遍历日期区间#!/bin/bash#1 获取命令输入参数的个数,如果个数为0,直接退出命令paramnum=$#if((paramnum==0)); thenecho no params;exit;fi#2 获取跑的模块module=$1#3 获取跑的日期区间startdate=`date -d "$2" +%Y-%m-%d`enddate=`date -d "$3" +%Y-%m-%d`#4 遍历日期while [[ $startdate < $enddat

2022-03-29 15:07:17 4179

原创 Java笔记(基础梳理)

java基础梳理

2022-03-05 22:00:29 335

原创 Mysql笔记

mysql知识点笔记

2022-03-02 00:16:27 194

原创 Hive笔记

Hive1.Hive的定义Hive本质是:将 SQL 转换为 MapReduce 的任务进行运算底层由HDFS来提供数据存储可以将Hive理解为一个:将 SQL 转换为 MapReduce 任务的工具Hive的引擎是可以是MR/Spark/Flink2.Hive元数据Hive的元数据默认存储在自带的 derby 数据库中,生产中多采用MySQL存储元数据。3.Hive数据类型常用类型:BIGINT、DOUBLE、STRING、TIMESTAMP其他类型:TINYIN

2022-02-24 19:47:07 369

原创 数据之旅_20190514

20190514今天一天就改改数据,猜猜数据的指标,就过去了。空闲时间,看看复习视频,逛逛优快云,看看知乎一天就过去了。Oracle 常用数据库对象序列1.序列的创建语法:create sequence [seqName]2 序列的使用:增加数据时使用“序列名称.nextval”操作。同义词创建同义词语法:create [public] SYNONYM 同义词名 FOR 用户...

2019-05-14 23:57:35 119

转载 Oracle存储过程实例

Oracle存储过程存储过程存储过程语法例子计算信用积分的存储过程:--记录存储过程log的存储过程(方法函数) sp_exception_logcreate or replace procedure sp_exception_log(v_date in date, v_proc_nam...

2019-05-14 14:10:11 4748

原创 20190512_数据之旅

20190512这周在家休息了一天,陪女朋友去逛了一圈商场,看一看世界的繁华,越发的感觉自己需要努力提升自己的价值,提升自己的工资。煞笔项目经理周末还打电话给我,真的是垃圾人,我可不能把自己宝贵的时间浪费在这种人身上,多了点这种人在公司里,少了真正做事情的人,公司还怎么开?感觉这家小公司全是喜欢动嘴的人,真正做事的没几个,越发要抓紧学习新知识了,危机感越来越强了。以我的见识来看,这公司短期...

2019-05-13 00:15:39 135

原创 Oracle数据更新,表结构,约束

Oracle数据更新,表结构,约束数据插入insert into 表名称[(列名称1,列名称2,…)] values (值1,值2…);字符串:使用单引号声明,例如:‘sasda’;数字:直接编写,例如:100;日期:当前日期(sysdate)、使用to_date()转换范例:使用完整格式:insert into myemp(empno,sal,job,comm,ename,mgr...

2019-05-12 23:22:59 1202

原创 Oracle数据库SQL基础知识

Oracle数据库SQL基础知识SQL基础查询1.SELECT [DISTINT] * | 列名[别名],列名[别名],…FROM 表名称 [别名];首先执行的是from语句,在通过select筛选 *表示全部例如: select emname,empno from emp;查询固定的列 select distinct,job, empno from emp;去掉重复的数据...

2019-05-11 20:28:54 712

原创 20190510_数据之旅

20190510晚上10点产品经理打电话要我写写存储过程和sql,帮他手下改改数据。WTF?他不会就要我来做,这是什么神仙逻辑?那他的工资能不能也分我点?他的项目奖金能不能算我的?我有帮他的时间为什么不拿来学习点心东西,复习点旧东西,提升自己?我们这种小公司没什么考核指标,懂点技术的可以进来,不懂技术的也能混进来,只要会交流就行了,工资也肯定是不高的。结论:努力提升自己,提升自己...

2019-05-11 12:25:11 94

原创 20190509_数据之旅

20190509早上9:20上班,下午5:40下班,顺利完成工作任务,网格化治理100%通过,明天开始新的章节。今天心情极度糟糕,因为看到了知乎上的两个问题。水滴筹的被捐款人真的那么穷吗?如何看待有人在北京有房,但是得大病需要钱而众筹被一边倒地骂?朋友圈今天也刷到水滴贷了,分享的人是个上海的研究生,并且亲戚朋友很有钱,1000万以上身价级别的。这个社会真的是太疯狂了,为了钱这个东西...

2019-05-09 21:14:33 97

原创 数据之旅20190507

201905079点上班,19点下班,又是忙碌的一天结束了,继续处理网格化治理的考核数据。总结:table1的【主键】和【主键对应的网格】往table2里插的【外键字段】和【网格】里插,每个月造1条数据,table1也要每个月造一天数据。select 信息主键编号,网格 from table1 where 网格 in (select WGBM from 网格表)--这查询出来的数据量记为...

2019-05-08 00:15:26 237

原创 数据之旅20190506

20190506从今天开始每天进步一点点,先定一个小目标——成为月薪8000+的数据分析师背景:2018年8月份进入了这家公司,职位是数据工程师,主要负责公信力产品、网格化治理、ETL数据清洗、数据接口制作、对接客户、上报、kettle技能教授、Oracle技巧教授等工作。PS:接下来每天写日记,记录生活,改变生活。既然给自己设立的目标是成为8k的数据分析师、ETL工程师、BI工程师,就...

2019-05-07 00:40:42 154

mybatis课程笔记,自用

mybatis课程笔记

2022-03-20

spark笔记整理,2022年3月16日

spark笔记整理,2022年3月16日

2022-03-16

入职第一周周心得体会XXXX

入职第一周周心得体会

2022-03-15

ELK实战文档,elasticsearch学习

ELK实战文档,elasticsearch学习

2022-03-13

dbeaver连接hive2.1.1依赖jar包

dbeaver连接hive2.1.1依赖jar包

2022-03-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除