
大数据
文章平均质量分 85
ywmzxysjdsjlcf
这个作者很懒,什么都没留下…
展开
-
【大数据】(选修)实验7 基于Spark的安装和编程实践
由于spark-submit命令是将任务提交到了集群环境(比如 Standalone 集群、YARN 集群或者 Mesos 集群等)去运行,那么默认情况下,print语句的输出可能不会按照你期望的格式直接显示在启动spark-submit命令的终端上。这是因为在集群模式中,任务是分布在各个节点上执行的,其标准输出(包括print语句的输出)的处理方式和本地执行有所不同。例如在 YARN 集群模式下,任务的输出通常会被收集到 YARN 的日志系统中,而不是直接在提交任务的终端显示整齐的格式化内容。原创 2025-01-09 16:08:34 · 1118 阅读 · 0 评论 -
【大数据】(选修)实验6 MapReduce进阶编程实践
(1)把pi_data.txt上传到HDFS的/input目录(注意/input和input的区别,后者实际上是/usr/local/hadoop/input,需跟提交Hadoop作业时指定文件的路径保持一致)(1)把pi_data.txt上传到HDFS的/input目录(注意/input和input的区别,后者实际上是/usr/local/hadoop/input,需跟提交Hadoop作业时指定文件的路径保持一致)2.在(一)的基础上,编写只统计并输出words.txt中出现的单词,并最终输出统计结果。原创 2025-01-09 16:08:51 · 569 阅读 · 0 评论 -
【大数据】(选修)实验5 MapReduce基础编程实践
比如,如果要把“/usr/local/hadoop/share/hadoop/common”目录下的hadoop-common-3.1.3.jar和haoop-nfs-3.1.3.jar添加到当前的Java工程中,可以在界面中点击相应的目录按钮,进入到common目录,然后,界面会显示出common目录下的所有内容(如下图所示)。对于两个输入文件,即文件A和文件B,请编写MapReduce程序,对两个文件进行合并,并剔除其中重复的内容,得到一个新的输出文件C。下面是输入文件和输出文件的一个样例供参考。原创 2025-01-09 16:09:08 · 886 阅读 · 0 评论 -
【大数据】(选修)实验4 安装熟悉HBase数据库并实践
sudo chown -R hadoop ./hbase #将hbase下的所有文件的所有者改为hadoop,hadoop是当前用户的用户名,密码之前是指定用hadoop。注意:如果在操作HBase的过程中发生错误,可以通过{HBASE_HOME}目录(/usr/local/hbase)下的logs子目录中的日志文件查看错误原因。注意:如果在操作HBase的过程中发生错误,可以通过{HBASE_HOME}目录(/usr/local/hbase)下的logs子目录中的日志文件查看错误原因。原创 2025-01-06 21:50:48 · 1119 阅读 · 0 评论 -
大数据技术及应用(林子雨老师的文章链接)
在Windows中使用VirtualBox安装Ubuntu虚拟机(2020年7月版本)_厦大数据库实验室博客Hadoop3.1.3安装教程_单机/伪分布式配置_Hadoop3.1.3/Ubuntu18.04(16.04)_厦大数据库实验室博客Hadoop集群安装配置教程_Hadoop3.1.3_Ubuntu_厦大数据库实验室博客HDFS编程实践(Hadoop3.1.3)_厦大数据库实验室博客HBase2.2.2安装和编程实践指南_厦大数据库实验室博客MapReduce编程实践(Hadoop3.1.3)_厦大原创 2024-10-28 22:50:32 · 332 阅读 · 0 评论 -
大数据实验3 熟悉HDFS基本操作和编程实现
问题五:ResourceManager和NodeManager未启动Ps:使用jps命令可以检查各个进程是否已经成功启动。如果输出结果中包含以下信息,则说明相应的服务正在运行:为了确保Hadoop集群正常运行,特别是对于MapReduce作业的执行,需要启动ResourceManager和NodeManager。以下是启动这两个组件的步骤:原创 2024-10-28 23:03:12 · 1204 阅读 · 0 评论