
大数据
文章平均质量分 73
Huathy-雨落江南,浮生若梦
雨落江南,浮生若梦,时光匆匆,只是过客!
展开
-
Spark读取kafka数据源出现chmod 0644问题(entry in command string: null chmod 0644 问题解决)
在WIndows操作系统中本地运行spark程序写文件操作时,报以下错误:…(null) entry in command string: null chmod 0644 …(后面是目的目录)转载 2024-05-08 08:43:05 · 207 阅读 · 0 评论 -
Odps执行SQL报错,提示Please set odps.sql.type.system.odps2=true to use it.
在执行task前,将上面的配置信息增加进hints中。原创 2024-03-06 12:42:27 · 1626 阅读 · 0 评论 -
Hadoop3.0大数据处理学习4(案例:数据清洗、数据指标统计、任务脚本封装、Sqoop导出Mysql)
由于原始数据涉及多个需要统计的字段,可以将这些字段统一的记录在一个自定义的数据类型中,方便使用import org/*** @description 自定义数据类型,为了保存主播相关核心字段,方便后期维护} }/*** @description 自定义数据类型,为了保存主播相关核心字段,方便后期维护} }/**原创 2023-10-25 21:29:17 · 1756 阅读 · 0 评论 -
Hadoop3.0大数据处理学习3(MapReduce原理分析、日志归集、序列化机制、Yarn资源调度器)
官方介绍:MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题。MapReduce是分布式运行的,由俩个阶段组成:Map和Reduce。MapReduce框架都有默认实现,用户只需要覆盖map()和reduce()俩个函数,即可实现分布式计算。原创 2023-10-25 21:28:45 · 1513 阅读 · 0 评论 -
Hadoop3.0大数据处理学习2(HDFS)
第一个是File和Block List的关系,对应的关系信息存储在fsimages和edits文件中(当NameNode启动的时候会把文件中的内容加载到内存中)第二个关系:DataNode与Block的关系(当DataNode启动的时候,会把当前节点上的Block信息和节点信息上报给NameNode)原创 2023-10-25 21:28:10 · 915 阅读 · 0 评论 -
Hadoop3.0大数据处理学习1(Haddop介绍、部署、Hive部署)
Hadoop是一个适合海量数据存储与计算的平台。是基于Google的GoogleFS、Map Reduce、BigTable实现的。移动数据:数据 -> 计算程序移动计算:计算程序 -> 数据分布式计算:各个节点局部计算 -> 第二阶段汇总程序官方版本:Apache Hadoop,开源,集群安装维护比较麻烦第三方发行版:Cloudera Hadoop(CDH),商业收费,使用Cloudera Manager安装维护比较方便。原创 2023-10-25 21:27:03 · 1513 阅读 · 0 评论