《大数据基础》关于hdfs与spark-shell的一些操作

最新推荐文章于 2024-03-16 11:50:13 发布

原创

最新推荐文章于 2024-03-16 11:50:13 发布 · 569 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#spark #hdfs #big data

本文记录了学习《大数据基础》过程中，使用Linux系统操作Hadoop和Spark Shell的步骤，包括启动Hadoop和Spark Shell，创建HDFS目录，上传文件，读取文件并进行行数统计，筛选特定内容，进行词频统计，降序排列，保存到HDFS，文件合并，下载到本地，并展示最终结果。

刚学这本书，记录一下Linux系统一些操作，方便以后自己回顾学习。

1、首先启动hadoop

2、启动spark shell

3、在hdfs中创建多级目录/user/exam

并将/usr/local/spark中的LICENSE上传到hdfs中的user/exam中并检查是否已上传

4、然后继续在spark-shell界面操作

用spark-shell命令读取hdfs中user/exam/LICENSE文件并读取行数（这里网上有一些版本，最后运行了（“hdfs：///）需要三个斜线的是正确的。）

299行

5、筛选出只包含（BSD）的行并输出行数

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Respect111

关注关注

1
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

【大数据学习】之用spark-sql和spark-shell操作hive里面的表数据

奔走觅衣粮de博客

03-15

2666

SparkSQL与Hive的交互有两种方式，一种是spark-sql,另一种是spark-shell。要注意，访问hive前要把$HIVE_HOME/conf/hive-site.xml拷贝到$SPARK_HOME/conf，还有必须要启动hdfs，因为hive的数据是存放在hdfs上的，既然要访问hive所以需要启动hdfs。一、启动spark-sql连hive 1、首先要配置spark...

大数据实验实验六：Spark初级编程实践_spark 读取文件系统的数据 (1)在spark-shell中读取 linux操作系统本地文件&quot；h(3)

2401_83946044的博客

05-07

1216

最近很多小伙伴找我要Linux学习资料，于是我翻箱倒柜，整理了一些优质资源，涵盖视频、电子书、PPT等共享给大家！

参与评论您还未登录，请先登录后发表或查看评论

spark-shell读取hdfs数据

ThePythonFucker的博客

04-21

3800

打开spark-shell，输入下面代码（注意“yourPATHinHDFS”这里换成自己文件的路径） val textFile = sc.textFile("hdfs://localhost:9000/yourPATHinHDFS/test.txt") 因为我的是json数据，就可以通过下面这条命令显示 textFile.collect 实现计数，一共有多少行 textFile.count() 打印第一行 textFile.first() ...

Spark操作hdfs

sinat_32651363的博客

01-24

2642

Windows平台spark连接hadoop集群，并读取hdfs数据开发工具：idea 数据hdfs：//hdfs://192.168.10:9000/word/ 在idea运行地方，选择RUN-->Edit-->program arguments:添加hdfs目录地址，即可运行。此例子适合调试使用，实际生产环境中最终将程序打包，部署到服务器中通过spark命令进行运行。 pac

spark中操作hdfs

weixin_30455365的博客

08-22

167

1 获取路径 val output = new Path("hdfs://master:9000/output/"); val hdfs = org.apache.hadoop.fs.FileSystem.get( new java.net.URI("hdfs://master:9000"), new org.apache.hadoop.conf.Configuration()...

【Spark】Spark-shell案例——standAlone模式下读取HDFS上存放的文件

关于我转生变成程序猿这档事

04-07

633

目录可以先用local模式读取一下步骤一、先将做测试的数据上传到HDFS二、开发scala代码standAlone模式查看HDFS上的文件步骤一、退出local模式，重新进入Spark-shell二、开发scala代码可以先用local模式读取一下步骤一、先将做测试的数据上传到HDFS cd /export/servers/sparkdatas hdfs dfs -mkdir -p /sp...

【Spark】Spark读取本地与hdfs文件

热门推荐

littlemichelle

05-24

1万+

https://zhuanlan.zhihu.com/p/26506724

spark-submit 与 spark-shell 介绍

a1786742005的博客

03-15

2146

一、spark-submit 介绍 1、spark-submit 介绍程序一旦打包好，就可以使用 bin/spark-submit 脚本启动应用了。这个脚本负责设置 spark 使用的 classpath 和依赖，支持不同类型的集群管理器和发布模式。 2、运行方式 ./bin/spark-submit \ --class <main-class> --master <m...

【spark床头书系列】spark-shell 任务提交任务参数选项说明示例源码权威详解

wang2leee的博客

11-27

1513

spark-shell 任务提交任务参数选项说明示例源码详解

spark/hdfs..操作命令，常用

ZHAOLEI5911的博客

03-21

2616

1.查看 hdfs 里文件 hadoop fs -ls -R / 2.在 hdfs中新建目录 hadoop fs -mkdir -p /data/wordcount 3.上传文件到hdfs hadoop fs -put /usr/local/cluster/hadoop/etc/hadoop/slaves /data/wordcount/将slaves文件传到hdfs下的wordcount

spark上传文件和追加文件到hdfs

星辰大数据的博客

06-30

3728

一、代码实现 package com.xtd.hdfs import java.io.File import org.apache.hadoop.conf.Configuration import org.apache.hadoop.fs.{FileSystem, FileUtil, Path} import scala.collection.mutable.{ArrayBuffer, ListBuffer} object HDFSUtils { def main(args: Array[

Spark-shell交互式编程+HDFS操作，编写独立应用程序实现求二次排序问题

m0_51273386的博客

07-02

2359

Spark-shell交互式编程+HDFS操作，编写独立应用程序实现求二次排序问题

HDFS常用操作以及使用Spark读取文件系统数据

追风赶月莫停留，平芜尽处是春山

03-16

4118

在HDFS中的“/user/hadoop”目录下，创建子目录input，把HDFS中“/user/hadoop”目录下的test.txt文件，复制到“/user/hadoop/input”目录下；删除HDFS中“/user/hadoop”目录下的test.txt文件，删除HDFS中“/user/hadoop”目录下的input子目录及其子目录下的所有内容。把HDFS中“/user/hadoop”目录下的test.txt文件，下载到Linux系统的本地文件系统中的“/home/hadoop/下载”目录下；

spark在hdfs上创建和删除目录

qq_37769075的博客

05-03

2824

1、创建目录（1）下面是基于spark2.4版本（spark2.0以后的版本均统一使用sparkSession，spark2.x均可使用，但是spark2.0以前的版本没有sparkSession） import org.apache.spark.sql.SparkSession object runDriver { def main(args:Array[String]){ val sparkSession = SparkSession.builder() .appName("h

Spark-shell操作hdfs对应api

小蚯蚓的博客

11-11

451

假期学习【三】HDFS操作及spark的安装/使用

weixin_43847567的博客

02-01

1417

1．安装 Hadoop 和 Spark 进入 Linux 系统，参照本教程官网“实验指南”栏目的“Hadoop 的安装和使用”，完成 Hadoop 伪分布式模式的安装。完成 Hadoop 的安装以后，再安装 Spark（Local 模式）。 2．HDFS 常用操作使用 hadoop 用户名登录进入 Linux 系统，启动 Hadoop，参照相关 Hadoop 书籍或网络资料，或...

Spark-shell中RDD

weixin_63858511的博客

04-02

330

Ømap操作是最常用的转换操作，该操作将RDD中的每个元素传入自定义函数后获取一个新的元素，然后用新的元素组成新的RDD。Ø注意的是，要合并的两个RDD，其结构（元素的类型、元素值得数目）必须相同，否则报错。如下图所示，RDD2元素为（String，Int，Int）类型的三元组，两个RDD结构不同。union是一个转换操作，可将两个RDD的元素合并为一个新RDD，但该操作不进行去重；K，左边为要排序的RDD的每一个元素，右边返回要进行排序的值。ØflatMap与map操作类似，它也是一个转换操作；

spark-shell的环境测试

make_APP的博客

01-27

1085

测试spark-shell 前提，hdfs有format过（一次就好，format多次了会出现找不到slave的datanode的现象），而且开启了hadoop和spark 然后进入spark文件夹，直接bin/spark-shell 成功信息，没有error，最后一行是sql context available as sqlcontext 测试work count（代码）可以写一个备

spark 连接HDP hive ACID

a1282032739的博客

06-22

784

原生的spark 连接hive表可以直接通过thrift服务连接操作hive HDP和CDH最新版本都封装hive3不能直接使用thrift操作hive只能查看hive元数据 Hdp3连接要配置3项先用spark-shell 测试 spark-shell --master yarn –jars /usr/hdp/3.1.5.0-152/hive_warehouse_connector/hive-warehouse-connector-assembly-1.0.0.3.1.5.0-152.jar –co

大数据应用技术hdfs操作