大数据实验七

安装spark并编写scala

一、安装spark
1、下载:https://www.apache.org/dyn/closer.lua/spark/spark-2.4.2/spark-2.4.2-bin-hadoop2.7.tgz
2、解压压缩包
3、先启动hadoop 环境start-all.sh
4、启动spark环境
进入到SPARK_HOME/sbin下运行start-all.sh
/opt/module/spark/sbin/start-all.sh
修改配置文件后进入Spark的sbin目录启动spark:
./start-all.sh
启动 Spark Shell :
./bin/spark-shell
二、安装Scala:
1、下载:https://downloads.lightbend.com/scala/2.12.8/scala-2.12.8.rpm
2、tar -zxvf scala-2.12.8.tgz -C /opt/module
3、mv scala-2.12.8 scala
4、测试:scala -version
5、启动:scala
WordCount:
1、在 Spark Shell 使用本地文件进行统计
2、在 CentOS中 编写 WordCount 程序,在 Spark Shell 中执行程序
3、编写 Java 版的 WordCount 程序并执行:
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import scala.Tuple2;

三、搭建spark伪分布
配置spark-env.sh

export JAVA_HOME=/usr/java/jdk1.8.0_211-amd64
export SCALA_HOME=/usr/share/scala
export HADOOP_HOME=/usr/local/hadoop/hadoop-2.7.7
export HADOOP_CONF_DIR=/usr/local/hadoop/hadoop-2.7.7/etc/hadoop
export SPARK_MASTER_HOST=bigdata
export SPARK_MASTER_PORT=7077
export  LD_LIBRARY_PATH=$HADOOP_HOME/lib/native

配置etc/profile

export JAVA_HOME=/usr/java/jdk1.8.0_211-amd64
export HADOOP_HOME=/usr/local/hadoop/hadoop-2.7.7
export HBASE_HOME=/usr/local/hbase/hbase-1.4.9
export HIVE_HOME=/usr/local/hive/apache-hive-2.3.4-bin
export SPARK_HOME=/usr/local/spark/spark-2.4.2-bin-hadoop2.7
export LD_LIBRARY_PATH=$HADOOP_HOME/lib/native

source profile使其生效
进入Spark 的 sbin 目录执行 start-all.sh 启动 spark:./start-all.sh
输入spark-shell进入spark界面

四、安装sbt
参考网址:http://dblab.xmu.edu.cn/blog/1307-2/

五、统计本地文件

val textFile = sc.textFile("file:///usr/local/spark/mycode/wordcount/word.txt")
wordCount.collect()

六、scala程序实现wordcount统计

spark-submit --class "WordCount"  /usr/local/spark/mycode/wordcount/target/scala-2.11/simple-project_2.11-4.1.jar

相关scala程序:

import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._
import org.apache.spark.SparkConf

object WordCount {
    def main(args: Array[String]) {
        val inputFile =  "file:///usr/local/spark/mycode/wordcount/word.txt"
        val conf = new SparkConf().setAppName("WordCount").setMaster("local[2]")
        val sc = new SparkContext(conf)
                val textFile = sc.textFile(inputFile)
                val wordCount = textFile.flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey((a, b) => a + b)
                wordCount.foreach(println)
    }
}

七、java程序实现wordcount统计
程序详情:

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import scala.Tuple2;
 
import java.util.Arrays;
 
public class JavaWordCount {
    public static void main(String[] args) {
        SparkConf conf = new SparkConf().setAppName("Spark WordCount written by java!");
 
        JavaSparkContext sc = new JavaSparkContext(conf);
        
        JavaRDD<String> textFile = sc.textFile("hdfs:///user/hadoop/word.txt");
        JavaPairRDD<String, Integer> counts = textFile
                .flatMap(s -> Arrays.asList(s.split(" ")).iterator())
                .mapToPair(word -> new Tuple2<>(word, 1))
                .reduceByKey((a, b) -> a + b);
        counts.saveAsTextFile(hdfs:///user/hadoop/writeback");
        sc.close();
    }
}

相关依赖

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
  <modelVersion>4.0.0</modelVersion>
  <groupId>Spark</groupId>
  <artifactId>SPARK</artifactId>
  <version>0.0.1-SNAPSHOT</version>
    <dependencies>
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-core_2.11</artifactId>
            <version>2.4.1</version>
        </dependency>
    </dependencies>
 
    <build>
        <pluginManagement>
            <plugins>
                <plugin>
                    <artifactId>maven-assembly-plugin</artifactId>
                    <configuration>
                        <appendAssemblyId>false</appendAssemblyId>
                        <descriptorRefs>
                            <descriptorRef>jar-with-dependencies</descriptorRef>
                        </descriptorRefs>
                        <archive>
                            <manifest>
                                <mainClass>JavaWordCount</mainClass>
                            </manifest>
                        </archive>
                    </configuration>
                    <executions>
                        <execution>
                            <id>make-assembly</id>
                            <phase>package</phase>
                            <goals>
                                <goal>assembly</goal>
                            </goals>
                        </execution>
                    </executions>
                </plugin>
                <plugin>
                    <groupId>org.apache.maven.plugins</groupId>
                    <artifactId>maven-compiler-plugin</artifactId>
                    <configuration>
                        <source>8</source>
                        <target>8</target>
                    </configuration>
                </plugin>
            </plugins>
        </pluginManagement>
    </build>
    </project>

打包上传到centos后

spark-submit --class spark.JavaWordCount --master spark://bigdata:7077 /usr/local/sp

在这里插入图片描述

### 林子雨大数据课程实验1至7的教程资源获取 对于希望深入学习并实践林子雨老师的大数据系列实验的同学来说,可以从以下几个方面着手准备和查找所需材料: #### 官方网站博客 官方提供的教学资源是最权威的第一手资料。厦门大学数据库实验室维护着一系列由林子雨教授编写的关于大数据技术的教学文档[^1]。这些文档不仅涵盖了理论讲解还包含了详细的实验指导。 #### 实验具体说明 - **实验一:Linux操作系统入门** Linux作为大多数大数据平台的基础运行环境,在此部分会介绍如何操作基本命令以及文件系统的管理等内容。 - **实验二:Java编程基础** Java是编写MapReduce程序的主要语言之一,因此掌握其语法结构至关重要。该阶段重点在于理解面向对象的概念及其实际运用场景。 - **实验三:Hadoop集群搭建** 这里将详细介绍怎样在一个小型局域网内建立自己的Hadoop开发测试环境,包括但不限于单节点部署、多节点配置等不同模式下的设置方法。 - **实验四:基于Eclipse IDE构建MR应用程序** 利用流行的集成开发工具来简化编码过程,并通过实例展示完整的项目创建流程直至最终提交作业给YARN调度器执行。 - **实验五:Sqoop数据导入导出实战演练** Sqoop可以实现关系型数据库管理系统(RDBMS)同HDFS之间的高效传输,这部分内容有助于学员了解异构存储间的数据交换机制。 - **实验六:Pig Latin脚本语言初探** Pig是一种高层次的数据流处理平台,它允许用户定义复杂的ETL转换逻辑而无需关心底层细节;同时支持多种输入输出格式间的灵活切换。 - **实验:Hive SQL查询优化技巧分享** Hive提供了类似于传统SQL接口用于访问存放在分布式文件系统上的大规模半结构化/非结构化的海量信息集合体,这里探讨了几种常见的性能调优策略以提高查询效率[^2]。 为了方便大家下载上述提到的所有相关教材及配套源码,建议直接访问林子雨老师的个人主页或是厦门大学计算机科学系官方网站寻找最新发布的版本链接。通常情况下,页面底部会有明确标注版权归属声明,请务必遵守相应规定合理合法地利用公共资源。 ```bash wget https://example.com/path/to/resource.zip # 示例命令,需替换为真实网址 unzip resource.zip -d ./experiment_materials/ ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值