hadoop
文章平均质量分 94
HikZ.919
也许时间刚好你嘴角上翘 我眉眼带笑.
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
大数据-离线项目
埋点日志在本项目中,有3大类:app端行为日志pc web端行为日志微信小程序端行为日志日志生成在了公司的N台(5台)日志服务器中,现在需要使用flume采集到HDFSorc.compress:表示ORC文件的压缩类型,「可选的类型有NONE、ZLB和SNAPPY,默认值是ZLIB(Snappy不支持切片)」—这个配置是最关键的。parquet. compression:默认值为 UNCOMPRESSED,表示页的压缩方式。原创 2023-09-14 17:03:48 · 596 阅读 · 0 评论 -
大数据-Hive
Hive是基于 Hadoop 的一个【数据仓库工具】,可以将结构化和半结构化的数据文件映射为一张数据库表,并提供简单的 sql 查询功能。因为比直接用MapReduce开发效率更高,Hive的主要作用就是用来做离线数据分析。本质是:将HQL转化成MapReduce程序原创 2023-09-13 13:39:42 · 497 阅读 · 0 评论 -
Spark
Shark是SparkSQL的前身,SparkSQL产生的根本原因是其完全脱离了Hive的限制。SparkSQL支持查询原生的RDD。RDD是Spark的核心概念,是Spark能够高效的处理大数据的各种场景的基础。能够在scalajava中写SQL语句。支持简单的SQL语法检查,能够在SQL中写Hive语句访问Hive数据,并将结果取回作为RDD使用。SparkStreaming是流式处理框架,是Spark API(RDD)的扩展,支持可扩展、高吞吐量、容错的准实时数据流处理。原创 2023-05-21 14:04:11 · 947 阅读 · 0 评论 -
Spark常见报错
shuffle read是container请求external shuffle服务获取数据过程,external shuffle是NodeManager进程中的一个服务,默认端口是7337,或者通过spark.shuffle.service.port指定。解决方案:针对原因(1),调大spark.network.timeout值,如1800s,此参数可以在spark-defaults.conf设置,对所有任务都生效;定位过程:拉取任务运行日志,查看container日志;原创 2023-05-18 15:21:24 · 2129 阅读 · 0 评论 -
数据仓库理论篇
数据处理大致可以分为两大类:联机事务处理OLTP(On-Line Transaction processing)联机分析处理OLAP(On-Line Analytical Processing)OLTP(联机事物处理)维度表概念正在上传…重新上传取消维度表设计原则维度设计方法正在上传…重新上传取消维度设计高级主题正在上传…重新上传取消维度整合垂直整合存储的是相同的数据集,但是存储在不同的表中水平整合判断数据是否交叉(重复)去重没有交叉就将信息放在一张表中,需要保留原来的主键信息水平拆分可以按原创 2022-07-01 21:00:59 · 418 阅读 · 0 评论 -
Hadoop
(1)高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失。(2)高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点。(3)高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度。(4)高容错性:能够自动将失败的任务重新分配。文件存放在一个磁盘上效率肯定是低的,如果文件特别大会超出单机的存储范围偏移量: 可以理解为 下标数组都有对应的索引(下标),可以快速的定位数据数据块的个数 =Ceil( 文件大小 /原创 2022-06-26 15:48:13 · 736 阅读 · 0 评论
分享