
大数据
文章平均质量分 92
嗯嗲和滴
这个作者很懒,什么都没留下…
展开
-
OneData 共享同一套数据技术和资产
官方:阿里云OneData数据中台解决方案基于大数据存储和计算平台为载体,以OneModel统一数据构建及管理方法论为主干,OneID核心商业要素资产化为核心,实现全域链接、标签萃取、立体画像,以数据资产管理为皮,数据应用服务为枝叶的松耦性整体解决方案。其数据服务理念根植于心,强调业务模式,在推进数字化转型中实现价值。原创 2023-04-20 17:18:10 · 1149 阅读 · 0 评论 -
数据仓库和数据库面试综合问题
******************************************数据仓库相关问题******************************************************1.建模方式是什么,有哪些2.星型模型和雪花模型各自的优缺点是什么3.维度建模的四个步骤是什么3.数据仓库里 实体表/维表/事务表的概念,事务表的类型4.数据仓库里数据规范有哪些5.数据质量是怎么做的https://blog.youkuaiyun.com/An342647823/articl.原创 2021-08-23 09:50:47 · 1425 阅读 · 0 评论 -
Spark、Hive 杂比较
目录Spark、Hive数据倾斜的解决方案Spark优化、Hadoop(Mapreduce+小文件)的优化Spark join的类型Spark中JOIN执行的5种策略map-side-join和reduce-side-join的区别Spark里hash shuffle和sort shuffleSpark、Hive数据倾斜的解决方案 适用场景 Spark Hive...原创 2021-08-12 01:27:28 · 813 阅读 · 0 评论 -
Kafka、Zookeeper、Flume、Hbase基本知识合集
目录1.5 Kafka1.5.0 Kafka基本组成:(重点)1.5.1 kafka工作流程:(重点)1.5.2 Kafka压测1.5.3 Kafka的机器数量1.5.4 Kafka的日志保存时间1.5.5 Kafka的硬盘大小1.5.6 Kafka监控1.5.7 Kakfa分区数1.5.8 副本数设定1.5.9 多少个Topic1.5.13 Kafka中数据量计算1.5.11 Kafka的ISR副本同步队列(重点)1.5.12 Kafka分区分配策.原创 2021-08-11 13:09:03 · 2347 阅读 · 0 评论 -
Hadoop总结
目录HDFS1.角色2.读写流程3.小文件的弊处和调优Mapreduce1.mapreduce整个过程,包括shuffle2.hadoop中mapreduce的优化3.mapreduce和spark的shuffle的区别Yarn1.角色2.工作机制3.调度器4.yarn-local,yarn-clientHadoop其他综合性问题Hadoop宕机Hadoop解决数据倾斜方法集群资源分配参数(项目中遇到的问题)HDFS在上传文件的时...原创 2021-08-09 01:54:15 · 582 阅读 · 0 评论 -
聊聊SPARK小可爱
目录SPARK是什么SPARK ON YARNSPARK部署方式SPARK的基本组件SPARK算子分类及优化SPARK的JOB,STAGE,TASK的认知和关系SPARK任务的调度流程Spark 资源并行度和数据并行度 设置Spark的缓存策略Spark的容错机制Spark为什么比MR快SPARK是什么RDD 弹性分布式数据集 Resillient Distributed Dataset弹性是因为 RDD -----> a list of ...原创 2021-04-01 18:59:07 · 1019 阅读 · 0 评论 -
sqoop相关整理
目录sqoop是什么sqoop基本命令sqoop hive ------> mysqlsqoop oracle ------> hivesqoop处理hive与mysql的空值sqoop导出数据一致性sqoop导数据时数据倾斜sqoop与datax性能比较sqoop是什么sqoop是传统数据库与hadoop之间的数据同步工具。主要依托MapReduce分布式批处理。sqoop官网手册 http://sqoop.apache.org...原创 2021-04-01 00:23:12 · 524 阅读 · 0 评论 -
hive的进一步理解
HIVE的基本理解,使用,特性什么是hivehive------mapreduce的封装,意义在于将sql语言转化为mapreduce的过程,本质是个mapreduce,批处理强大,不支持单条纪录级别的update操作,随机读写性能差 (hive是个计算框架,不能存储数据)hbase-----hdfs的包装,本质是数据存储,克服hdfs在随机读写上的缺点kudu-----不及HDFS批处理快,也不及HBase随机读写能力强,但是反过来它比HBase批处理快(适用于OLAP的分析场景),..原创 2021-03-31 15:56:28 · 2993 阅读 · 1 评论