
大数据
文章平均质量分 82
长不大的大灰狼
这个作者很懒,什么都没留下…
展开
-
Elasticsearch要点简记
ES(elasticsearch)是一个分布式搜索和分析引擎,它用于快速、实时地搜索和分析大规模数据。ES是一个面向文档的分布式搜索引擎。它的数据模型基于文档,每个文档是一个包含了JSON格式数据的独立单元。文档可以属于不同的索引,每个文档可以具有不同的结构。Elasticsearch提供了一个易于使用的RESTfulAPI。可以使用HTTP请求来执行各种操作,例如索引文档、执行搜索查询、管理索引和节点等。专注于全文搜索和复杂查询,支持分词、模糊搜索、短语匹配等高级搜索功能。原创 2024-09-30 15:01:49 · 1176 阅读 · 0 评论 -
Hbase要点简记
通过{行键,列族名,列名}可以唯一确定一个列单元并获取数据Value,和关系型数据库不同的是,HBase中的数据是没有类型的,都是以bytes形式存储;如果HBase中的一张表只有一个列族的话,等于是这个列族包含了这张表的所有列,也就是将表整行的数据连续存储在了一起,就等于是行式存储了。● Column Family(列族):纵向切割,HBase中的每个列都归属于某个列族,列族不能改变,一行可有多个列族,一个列族可有任意个列;负责存储数据,Region 中的数据通过 HDFS 存储。原创 2024-09-29 16:37:12 · 706 阅读 · 0 评论 -
列式数据库、行式数据库简介
列式存储和行式存储介绍原创 2024-02-03 07:33:39 · 4398 阅读 · 0 评论 -
数仓建设规范
数仓建设规范汇总原创 2023-08-13 16:32:23 · 543 阅读 · 0 评论 -
大数据之路—数据架构体系及模型设计
大数据之路,模型篇汇总原创 2023-07-08 08:01:01 · 2467 阅读 · 0 评论 -
Hive 调优
Hive调优的常用手段原创 2023-04-02 10:07:58 · 545 阅读 · 1 评论 -
Hive 常用函数
Hive 常用函数原创 2023-03-08 21:24:13 · 2366 阅读 · 1 评论 -
二、数据仓库模型设计
数据仓库模型设计基础概述。原创 2023-01-11 20:07:02 · 1623 阅读 · 1 评论 -
一、数据仓库基础理论
数据仓库相关基础知识简述原创 2023-01-09 20:38:32 · 3783 阅读 · 0 评论 -
03 Hive概述
Hive简述原创 2023-01-03 20:19:32 · 509 阅读 · 0 评论 -
02 Hadoop概述
Hadoop简要介绍原创 2023-01-02 20:55:09 · 886 阅读 · 2 评论 -
01 大数据概述
什么是大数据原创 2023-01-02 20:06:49 · 676 阅读 · 0 评论 -
大数据——Hive SQL优化
Hive SQL优化原创 2022-09-13 20:38:55 · 1232 阅读 · 1 评论 -
什么是分区分桶?
什么是分区分桶?为什么要进行分区分桶?原创 2022-07-24 10:40:50 · 4100 阅读 · 0 评论 -
论——方法论
工作要学会使用方法论原创 2022-07-06 22:13:52 · 1170 阅读 · 0 评论 -
数据建模:维度建模
数据建模:维度建模一、数据建模概述二、维度建模1、维度建模过程2、维度建模的基本要素3、维度建模过程举例一、数据建模概述1、数据模型级别概念数据模型:是用一系列相关主题域的集合来描述概要数据需求。概念模型仅仅包括给定的领域和职能中基础和关键的业务实体,同时也给出实体与实体之间关系的描述。逻辑数据模型:是对数据需求的详细描述。物理建模:描述了一种详细的技术解决方案。2、发展阶段简单报表阶段:通过原始数据,以及结构化查询的条件,生成一些简单的能够辅助决策的汇总数据,表现形式大多是关系型数据库和前端原创 2022-05-23 21:39:07 · 8262 阅读 · 0 评论 -
谈谈对数据治理的理解
谈谈对数据治理的理解一、什么是数据治理?为什么要做数据治理?1、数据标准2、数据模型3、元数据4、主数据5、数据质量管理二、怎样做数据治理一、什么是数据治理?为什么要做数据治理?数据治理可以理解为对杂乱、无规范数据的治理,目的就是为了让数据有序,就像是秦始皇统一度量衡一样,“车同轨,书同文“就是最早的一项数据治理工作。治理好了有什么用?能够方便系统间的集成,能够对企业数据统一管理,能够支持报表、数据分析、数据挖掘等数据应用。现在的数据治理工作包含了数据标准管理、数据模型管理、元数据管理、主数据管理、数据原创 2022-03-18 19:52:23 · 3857 阅读 · 0 评论 -
统一建模语言——UML
统一建模语言——UML一、基本概念二、作用三、分类1 用例图2 类图3 对象图4 状态图5 活动图6 序列图(时序图)7 协作图8 构件图9 部署图(配置图)四、UML绘图工具选择:一、基本概念统一建模语言(Unified Modeling Language,UML)可以为面向对象系统的产品进行说明、可视化和编制文档,是一种非专利的第三代建模和规约语言。UML是面向对象设计的建模工具,独立于任何具体程序设计语言。UML的本质是为了更好地交流。二、作用1 为软件系统建立可视化模型基于UML的可视化模原创 2021-07-08 15:51:16 · 13130 阅读 · 0 评论 -
数据治理:对于元数据的理解
大数据:对于元数据的理解一、元数据的基本概念元数据(Metadata),又称中介数据、中继数据,为描述数据的数据(data about data),主要用来描述数据的属性(property)信息。元数据(Metadata)是用于提供某种资源的有关信息的结构数据(structured data)。元数据是描述信息资源或数据等对象的数据,其使用目的在于:识别资源;评价资源;追踪资源在使用过程中的变化;实现简单高效地管理大量网络化数据;实现信息资源的有效发现、查找、一体化组织和对使用资源的有效管理。二原创 2021-07-07 10:44:55 · 1806 阅读 · 0 评论 -
大数据入门知识总结
大数据入门知识总结1、大数据处理流程2、数据仓库数据仓库面向分析,平时的Mysql数据库主要面向业务。数据仓库是一个很大的数据存储集合,出于企业的分析性报告和决策支持目的而创建的,对多样的业务数据进行筛选与整合。它为企业提供一定的BI(商业智能)能力,指导业务流程改进,监视时间成本、质量以及控制。数据仓库是专门用来进行数据分析的,它可以是Mysql、Oracle等数据库,但是在大数据中常用到的是Hive。3、ETLETL(Extract-Transform-Load):数据的抽取、数据原创 2021-05-26 20:42:40 · 4654 阅读 · 10 评论