- 博客(25)
- 收藏
- 关注
原创 Hadoop Streaming
之前已经提到,当Map/Reduce框架从mapper的标准输入读取一行时,它把这一行切分为key/value对。在默认情况下,每行第一个tab符之前的部分作为key,之后的部分作为value(不包括tab符)。但是,用户可以自定义,可以指定分隔符是其他字符而不是默认的tab符,或者指定在第n(n>=1)个分割符处分割而不是默认的第一个。
2024-07-14 22:23:58
1136
原创 Hadoop Map/Reduce教程
Hadoop Map/Reduce是一个使用简易的软件框架,基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上,并以一种可靠容错的方式并行处理上T级别的数据集。一个Map/Reduce作业(job)通常会把输入的数据集切分为若干独立的数据块,由map任务(task)以完全并行的方式处理它们。框架会对map的输出先进行排序, 然后把结果输入给reduce任务。通常作业的输入和输出都会被存储在文件系统中。整个框架负责任务的调度和监控,以及重新执行已经失败的任务。
2024-07-14 11:10:53
940
原创 Hadoop分布式文件系统使用指南
HDFS是Hadoop应用用到的一个最主要的分布式存储系统。一个HDFS集群主要由一个NameNode和很多个Datanode组成:Namenode管理文件系统的元数据,而Datanode存储了实际的数据。HDFS的体系结构在这里有详细的描述。本文档主要关注用户以及管理员怎样和HDFS进行交互。HDFS架构设计中的图解描述了Namenode、Datanode和客户端之间的基本的交互操作。基本上,客户端联系Namenode以获取文件的元数据或修饰属性,而真正的文件I/O操作是直接和Datanode进行交互的。
2024-07-14 11:09:12
951
原创 Hadoop集群搭建
历史文件在用户指定的目录hadoop.job.history.user.location也会记录一份,这个配置的缺省值为作业的输出目录。作业的历史文件集中存放在hadoop.job.history.location,这个也可以是在分布式文件系统下的路径,其默认值为${HADOOP_LOG_DIR}/history。bin/stop-mapred.sh脚本会参照JobTracker上${HADOOP_CONF_DIR}/slaves文件的内容,在所有列出的slave上停止TaskTracker守护进程。
2024-07-14 11:08:07
970
原创 Hadoop 快速入门指南
Hadoop,作为大数据处理的基石,对于初学者来说可能显得有些复杂。本文旨在通过简单的步骤,帮助您在单机上快速安装并运行Hadoop,让您能够体验到Hadoop分布式文件系统(HDFS)和Map-Reduce框架的强大功能。
2024-07-14 11:06:26
227
原创 Hadoop集群配置文件详解
在搭建Hadoop集群时,配置文件是至关重要的,它们定义了Hadoop集群的行为和操作方式。以下是一些详细的配置示例,这些配置将帮助您完成Hadoop集群的搭建。
2024-07-13 14:06:37
475
原创 全国职业院校技能大赛-大数据应用赛项-大数据平台搭建(容器环境)-01
从宿主机/opt目录下将文件hadoop-3.1.3.tar.gz、jdk-8u212-linux-x64.tar.gz复制到容器Master中的/opt/software路径中(若路径不存在,则需新建),将Master节点JDK安装包解压到/opt/module路径中(若路径不存在,则需新建),将JDK解压命令复制并粘贴至客户端桌面【Release\任务A提交结果.docx】中对应的任务序号下;第一个参数是服务器的唯一标识符(例如,“server.1”,“server.2”,“server.3”)。
2024-07-10 22:14:16
819
原创 全国职业院校技能大赛-大数据应用赛项-hudi搭建示例
3.修改代码兼容(\hudi-release-0.12.0\hudi-common\src\main\java\org\apache\hudi\common\table\log\block\HoodieParquetDataBlock.java)2.hudi-common/src/main/java/org/apache/hudi/common/table/log/block/HoodieParquetDataBlock.java替换;5.修改hudi-spark-bundle的pom文件。
2024-07-10 16:38:34
1335
原创 全国职业院校技能大赛-大数据应用赛项-指标
Apache DolphinScheduler 是一个分布式易扩展的可视化DAG工作流任务调度开源系统。适用于企业级场景,提供了一个可视化操作任务、工作流和全生命周期数据处理过程的解决方案。Apache DolphinScheduler 旨在解决复杂的大数据任务依赖关系,并为应用程序提供数据和各种 OPS 编排中的关系。解决数据研发ETL依赖错综复杂,无法监控任务健康状态的问题。
2024-07-10 11:33:48
1323
原创 Kafka核心概念解析
Apache Kafka是一个高性能、分布式、可扩展的发布-订阅消息队列系统,它被广泛应用于构建实时数据管道和流处理应用程序。对于初学者来说,理解Kafka的核心概念是掌握其使用的关键。以下是一篇关于Kafka核心概念的完整文章。
2024-07-09 15:46:23
902
原创 Vue跨域问题解决方案
跨域问题是指当一个源(协议+域名+端口)的网页尝试去请求另一个源的资源时,浏览器出于安全考虑,会阻止这种请求。Vue.js作为单页应用(SPA)框架,经常需要与后端API进行数据交互,这就可能涉及到跨域问题。
2024-07-09 15:43:13
667
原创 全国职业院校技能大赛-大数据应用赛项-vue网络请求axios及相关配置(vue.config.js)
【代码】全国职业院校技能大赛-大数据应用赛项-vue网络请求axios及相关配置(vue.config.js)
2024-07-09 15:37:40
558
原创 全国职业院校技能大赛-大数据应用赛项-hadoop配置
在hadoop安装包内是有一份静态的网页文档的,在目录下,我们将该文档拷贝到我们的宿主机,再从宿主机拷贝到我们的客户端,查看文档搭建找到index.html使用谷歌浏览器打开,然后找到namenode搭建的文档</</</</</</</</</</</</</</</</</</</</</</</</</workersmasterslave1slave2hadoop3搭建时候需要设置每个服务的用户名,所以我们在环境变量文件中添加如下。
2024-07-09 15:34:25
1437
原创 全国职业院校技能大赛-大数据应用赛项-采集
selector.mapping用于指定将对应的字段值映射到Channel的名称上,c1、c2、c3是指定的三个Channel的名称,需要在后面的配置中定义相应的Channel。该题是让我们将所有数据备份到hdfs中,这里有个误区,备份是指将文件数据直接备份到hdfs上,还是要备份kafka所有主题的数据呢,再回过头看下题目,fileHeader和fileHeaderKey指定是否要读取每个文件的头部信息,如果为true,那么名称为file的头部数据会放在对应的数据组中。
2024-07-09 15:11:35
1249
原创 全国职业院校技能大赛-大数据应用赛项-抽取
编写Scala代码,使用Spark将MySQL的shtd_store库中表user_info、sku_info、base_province、base_region、order_info、order_detail的数据增量抽取到Hive的ods库中对应表user_info、sku_info、base_province、base_region、order_info、order_detail中。(若ods库中部分表没有数据,正常抽取即可)
2024-07-09 15:03:52
765
原创 全国职业院校技能大赛-大数据应用赛项-推荐系统
余弦相似度将向量根据坐标值,绘制到向量空间中,如最常见的二维空间。------------------------推荐Top5结果如下------------------------相似度top4(商品id:351,平均相似度:0.7335748)相似度top3(商品id:22,平均相似度:0.7635246)相似度top2(商品id:71,平均相似度:0.782672)相似度top5(商品id:14,平均相似度:0.522356)相似度top1(商品id:1,平均相似度:0.983456)
2024-07-09 15:02:57
507
原创 全国职业院校技能大赛-大数据应用赛项-特征工程
剔除订单信息表与订单详细信息表中用户id与商品id不存在现有的维表中的记录,同时建议多利用缓存并充分考虑并行度来优化代码,达到更快的计算效果。
2024-07-09 15:01:52
808
原创 Apache Flume 组件详解与配置示例
在Apache Flume中,组件是构建数据流管道的基本元素。以下是对这三个主要组件的详细介绍,以及一个配置示例,展示了如何将这些组件组合在一起。
2024-07-08 20:49:55
529
原创 全国职业院校技能大赛-大数据应用赛项-数据可视化-01
编写Vue工程代码,根据接口,用折柱混合图展示2020年各省份平均消费额(四舍五入保留两位小数)和地区平均消费额(四舍五入保留两位小数)的对比情况,柱状图展示平均消费额最高的5个省份,折线图展示这5个省所在的地区的平均消费额变化,同时将用于图表展示的数据结构在浏览器的console中进行打印输出,将图表可视化结果和浏览器console打印结果分别截图并粘贴至客户端桌面【Release\任务E提交结果.docx】中对应的任务序号下。子任务四:用条形图展示平均消费额最高的省份。
2024-07-08 20:39:34
1713
原创 全国职业院校技能大赛-大数据应用赛项-数据采集与实时计算-01
另外对于数据结果展示时,不要采用例如:1.9786518E7的科学计数法)。1、在主节点使用Flume采集实时数据生成器10050端口的socket数据,将数据存入到Kafka的Topic中(Topic名称为order,分区数为4),使用Kafka自带的消费者消费order(Topic)中的数据,将前2条数据的结果截图粘贴至客户端桌面【Release\任务D提交结果.docx】中对应的任务序号下;子任务二:使用Flink处理Kafka中的数据。子任务一:实时数据采集。
2024-07-08 20:33:22
1460
3
原创 全国职业院校技能大赛-大数据应用赛项-数据挖掘-01
-----------------------推荐Top5结果如下--------------------------------------------第一条数据前10列结果展示为:----------------------------------------相同种类前10的id结果展示为:--------------------相似度top5(商品id:14,平均相似度:0.522356)相似度top1(商品id:1,平均相似度:0.983456)若属于该spu_id,则内容为1否则为0。
2024-07-08 20:27:47
1523
原创 全国职业院校技能大赛-大数据应用赛项-离线数据处理-01
子任务一:数据抽取编写Scala代码,使用Spark将MySQL的shtd_store库中表user_info、sku_info、base_province、base_region、order_info、order_detail的数据增量抽取到Hive的ods库中对应表user_info、sku_info、base_province、base_region、order_info、order_detail中。(若ods库中部分表没有数据,正常抽取即可)1、抽取shtd_store库中user_info的
2024-07-08 20:24:01
1391
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人