Hadoop
文章平均质量分 96
独憩
有事可联系qq:1286072413
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
浏览器用户行为集群建设-数仓建模-数据计算
该项目旨在将通路进行模拟,以达到熟悉整个数据流程的效果。该项目模拟浏览器后台数据集群身份,收集用户浏览器访问数据传入数据集群,并进行数仓建模,以此基础进行相关计算和看数。该项目的主要目的是体验整个数据开发流程,故而深度一般,但是可以按照相同的方式自行拓展。原创 2024-09-28 14:20:16 · 1203 阅读 · 0 评论 -
Hadoop:Hive操作(二):数据表操作,复杂数据类型,Sampling采样,虚拟列
select,这是因为分桶的操作需要进行hash取模,也就是调用mapreduce,所有load data无法完成这个操作。分区的作用可以把数据分成n个文件夹单独存放,而分桶表则可以把一个表的数据放在一个文件夹下,但是分成n个文件存放。BLOCK__OFFSET__INSIDE__FILE,显示数据行所在文件的偏移量。内置的可以在查询语句中使用的特殊标记,可以查询数据本身的详细参数。修改元数据记录,HDFS实体的文件夹不会改名字,只是在。桶表的数据加载,由于桶表的数据加载通过。原创 2023-09-20 12:30:23 · 515 阅读 · 0 评论 -
Hadoop:YARN、MapReduce、Hive操作
YARN即Hadoop内提供的进行分布式资源调度的组件一般来说,MapReduce最好是在YARN的管控下进行Map任务喝Reduce任务分别向YARN申请资源,然后YARN根据现存的资源进行任务分配•MapReduce是Hadoop中的分布式计算组件•MapReduce可以以分散->汇总(聚合)模式执行分布式计算任务,提供两个接口•map接口,主要提供分散功能,由服务器分布式处理数据•reduce接口,主要提供汇总功能,进行数据汇总统计得到结果。原创 2023-09-15 19:37:18 · 1518 阅读 · 0 评论 -
Hadoop:HDFS--分布式文件存储系统
HDFS的基础架构Hadoop由三个部分组成,分别是HDFS、MapReduce和yarn:HDFS由三个角色,主角色、从角色、主角色辅助角色:NameNodeHDFS系统的主角色,是一个独立的进程负责管理HDFS整个文件系统负责管理DataNodeNameNode的辅助,是一个独立进程主要帮助NameNode完成元数据整理工作DataNodeHDFS系统的从角色,是一个独立进程主要负责数据的存储,即存入数据和取出数据。原创 2023-09-07 10:20:05 · 2565 阅读 · 0 评论
分享