
大数据
文章平均质量分 66
大数据
u013250861
这个作者很懒,什么都没留下…
展开
-
Hadoop组件:HDFS(离线存储)、Hive(离线分析数仓)、HBase(实时读写)【Hive分析后的结果可以写入MySQL或HBase供实时调用】
HBase是一个分布式的、面向列的开源数据库,Hbase是Hadoop database即Hadoop数据库。HBase的数据通常存储在上。HDFS为HBase提供了高可靠性的底层存储支持。不过HBase 本身其实可以完全不要考虑 HDFS 的,你完全可以只把 HBase 当作是一个分布式高并发 k-v 存储系统,只不过它底层的文件系统是通过 HDFS 来支持的罢了。换做其他的分布式文件系统也是一样的,不影响 HBase 的本质。原创 2023-04-11 23:25:18 · 520 阅读 · 0 评论 -
NoSQL数据库:Redis【高并发场景做缓存,每秒需要对一条数据查询100w次】、ES【从TB级数据中全文检索】、HBase【十亿行×百万列的实时随机读写,高并发;不适合复杂的数据分析】
NoSQL数据库:Redis【高并发场景做缓存,每秒需要对一条数据查询100w次】、ES【从TB级数据中全文检索】、HBase【十亿行×百万列的实时随机读写,高并发】原创 2023-04-11 23:12:30 · 147 阅读 · 0 评论 -
Hive、SparkSQL区别与联系:【SparkSQL集成了HiveSQL】【Spark通过sparkSQL使用HiveSQL语句操作Hive表】
具体可以理解为spark通过sparkSQL使用hive语句操作hive表,底层运行的还是sparkRDD,hive只作为存储角色,spark 负责sql解析优化,底层运行的还是sparkRDD。1.通过sparkSQL,加载Hive的配置文件,获取Hive的元数据信息。hive既作为存储又负责sql的解析优化,spark负责执行。2.获取到Hive的元数据信息之后可以拿到Hive表的数据。这里Hive的执行引擎变成了spark,不再是MR。3.通过sparkSQL来操作Hive表中的数据。原创 2023-03-05 23:11:31 · 649 阅读 · 0 评论 -
Avro:数据序列化系统【Hadoop中的一个子项目】【用来支持数据密集型应用,适合于远程或本地大规模数据的存储和交换】
avro支持跨编程语言实现(C, C++, C#,Java, Python, Ruby, PHP),类似于Thrift,但是avro的显著特征是:avro依赖于模式,动态加载相关数据的模式,Avro数据的读写操作很频繁,而这些操作使用的都是模式,这样就减少写入每个数据文件的开销,使得序列化快速而又轻巧。当Avro数据存储到文件中时,它的模式也随之存储,这样任何程序都可以对文件进行处理。如果读取数据时使用的模式与写入数据时使用的模式不同,也很容易解决,因为读取和写入的模式都是已知的。原创 2022-11-14 00:06:26 · 368 阅读 · 0 评论 -
大数据-消息队列:Pulsar
这两年pulsar发展比较快,有好多大公司引入了pulsar,相关的资料和课程也多了,今天一起来了解一下pulsar这款中间件。2012年pulsar在Yahoo内部开发,2016年开源并捐献给Apache,2018成为Apache顶级项目。原创 2022-11-13 23:39:57 · 1089 阅读 · 0 评论 -
数据中台【数据中台是“经营数据”,数据中台是为了提供服务而生(也有说是为了前台而生)】【数据仓库是“管理数据”】
一、什么是数据中台数据中台是一种数据管理体系,在企业中是独立的部门,为数据挖掘而建,最重要的目标是支持各部门业务数据和提供计算服务。数据中台的本质就是 “数据仓库+数据服务中间件”。数据中台是一套可持续“让企业的数据用起来”的机制,一种战略选择和组织形式,是依据企业特有的业务模式和组织架构,通过有形的产品和实施方法论支撑,构建一套持续不断把数据变成资产并服务于业务的机制。数据中台要做四个方面的工作分别是“采集”、“存储”、“打通”、“使用”。采集就是要采集各条业务线的业务数据、日志数据、用户行为数..原创 2022-04-24 23:39:40 · 1569 阅读 · 0 评论 -
大数据-NoSQL数据库:HBase【基于Zookeeper/HDFS的分布式、高并发、可扩展的NoSQL数据库;支持“十亿行”ד百万列”海量数据的实时随机读写;仅支持单表查询;不擅长数据分析】
HBase适合场景:单表超千万,上亿,且高并发!HBase不适合场景:主要需求是数据分析,比如做报表。数据量规模不大,对实时性要求高!HBase的查询工具有很多,如:Hive、Tez、Impala、Spark SQL、Kylin、Phoenix等。一、HBase的安装①、保证安装Hive的Linux服务器的环境变量中有JAVA_HOME②、基于HADOOP工作,保证安装Hive的Linux服务器的环境变量中有HADOOP_HOME1、HBase解压与安装(在hadoop102服务器上)在had原创 2021-01-14 00:13:07 · 1366 阅读 · 1 评论 -
大数据-NoSQL数据库-HBase操作框架:Phoenix【Java写的基于JDBC API的操作HBase数据库的SQL引擎框架;低延迟、事务性、可使用sql语句、提供JDBC接口】
大数据-NoSQL数据库-HBase-操作框架:Phoenix【Java写的基于JDBC API的操作HBase数据库的SQL引擎框架】原创 2021-01-14 00:12:24 · 800 阅读 · 0 评论 -
大数据-NoSQL数据库:MongoDB
大数据-NoSQL数据库:MongoDB原创 2021-01-30 23:05:12 · 187 阅读 · 0 评论 -
大数据-数据存储:HDFS、MongoDB、HBase的区别和使用场景
# 一、HDFSHDFS::适合大文件存储,可append,但不可修改。适合Hadoop离线数据分析,Apache Spark的数据存储。- HDFS对大量小文件的存储开销比较大,适合大文件处理,如果有多个小文件,可以合并为大文件再处理- HDFS适用于高吞吐量,而不适合低时间延迟的访问- HDFS适用于流式读取的方式,不适合多用户写入一个文件、随机写以及文件的覆盖操作- HDFS更加适合写入一次,读取多次的应用场景 HDFS适用场景- GB、TB、甚至PB级数据- 百万规模以上的文件原创 2021-02-06 23:57:31 · 2566 阅读 · 1 评论 -
大数据-ETL工具:Kettle【单机版】【整合各类文件格式、Hadoop系统】【使用图形化的方式定义ETL程序和工作流】【Window上设计ETL流程--上传Job文件-->Linux系统】
ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。(数据仓库结构)通俗的说法就是从数据源抽取数据出来,进行清洗加工转换,然后加载到定义好的数据仓库模型中去。ETL的目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。ETL是BI项目重要的一个环节,其设计的好坏影响生成数据的质量,直接关系到BI项目的成败。用ETL工具就可以解决。它的优点有:原创 2021-01-12 23:00:03 · 670 阅读 · 0 评论 -
大数据-计算引擎-实时数据分析框架:Flink【替代SparkStreaming】
大数据-计算引擎:Flink【用于实时数据分析】原创 2021-01-15 00:11:38 · 493 阅读 · 0 评论 -
大数据-BI(商业智能系统)-BI可视化工具:FineBI(帆软出品)使用简介【其他BI可视化工具:Echarts(百度出品)、Power BI(微软出品)】
大数据-BI案例-流程二:数据可视化【FineBI】原创 2021-07-13 20:01:00 · 722 阅读 · 1 评论 -
数据分析:大数据分析师必备技能【统计分析、可视化辅助工具、大数据处理框架、数据库、数据仓库、数据挖掘工具、机器学习、挖掘算法、编程语言】
一个合格的、高级的大数据分析师必须要掌握以下9种技能:统计分析:大数定律、抽样推测规律、秩和检验、回归、预测;可视化辅助工具:excel、BI工具、python大数据处理框架:Hadoop、storm、spark数据库:SQL、MySql、DB数据仓库:SSIS、SSAS数据挖掘工具:Matlab、R语言、python人工智能:机器学习挖掘算法:数据结构、一致性编程语言:Java、python一、统计分析众所周知,统计学是数据分析的基石。学了统计学,你会发现很多时候的分析并不那么原创 2021-04-14 21:41:15 · 1161 阅读 · 0 评论 -
数据分析:ELK【Elasticsearch(实时分布式搜索和分析引擎,用于全文搜索、结构化搜索、分析)、Logstash(功能类似Flume,用于日志采集)、Kibana(数据可视化工具)】
大数据:ELK【Elasticsearch(实时分布式搜索和分析引擎,用于全文搜索、结构化搜索、分析)、Logstash(功能类似Flume)、Kibana(可视化工具)】原创 2021-04-21 18:33:59 · 297 阅读 · 0 评论 -
数据分析:数据分析工具:SPSS、RapidMiner、KNIME、Kettle
SPSS、RapidMiner、KNIME以及Kettle四款工具都可以用来进行数据分析,只是彼此有各自的侧重点和有劣势。它们都可以逐步的定义数据分析过程,也同样都可以对数据进行ETL处理。笔者从自己关心的角度简单对比以上四款数据分析工具。一、SPSSSPSS不用多说,一款成功的商业数据分析软件,涵盖了统计分析、数据挖掘分析等各种数据分析方法。界面简单易用,分析过程定义时非常直观方便。因为,没有源码,无从知道其过程的调度机制。二、RapidMinerRapidMiner一款出色的开源数据分析工具。有原创 2021-04-12 11:27:59 · 2024 阅读 · 0 评论