mac配置spark并编写程序读取HBase数据

最新推荐文章于 2024-05-03 13:10:58 发布

原创最新推荐文章于 2024-05-03 13:10:58 发布 · 256 阅读

0 ·

CC 4.0 BY-SA版权

本文详细介绍如何在Spark环境中配置HBase，包括将HBase的jar包复制到Spark的jars目录，以及启动HBase和Hadoop的必要步骤。确保在运行spark-submit脚本前，正确设置环境，避免运行时出现错误。

配置spark

将hbase的lib目录下的一些jar包拷贝到spark的jar目录

cd /usr/local/spark/jars
mkdir hbase
cd hbase
cp /usr/local/hbase/lib/hbase*.jar ./
cp /usr local/hbase/lib/guava-12.0.1.jar ./
cp /usr/local/hbase/lib/client-facing-thirdparty/htrace-core4-4.2.0-incubating.jar ./
cp /usr/local/hbase/lib/protobuf-java-2.5.0.jar ./

在这里插入图片描述

在这里插入图片描述

在运行spark-submit **.py文件之前需要启动habse和hadoop.不然会报错.
启动命令:

cd /usr/local/hadoop-3.2.1
./sbin/start-all.sh

cd /usr/local/hbase
./bin/start-hbase.sh

最后可以运行spark-submit .py

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

l_ibrary

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

【推荐系统算法实战】 Spark ：大数据处理框架

AI天才研究院

12-21

9319

Spark 简介 http://spark.apache.org/ https://github.com/to-be-architect/spark 与Hadoop和Storm等其他大数据和MapReduce技术相比，Spark有如下优势： Spark提供了一个全面、统一的框架用于管理各种有着不同性质（文本数据、图表数据等）的数据集和数据源（批量数据或实时的流数据）...

Mac版hadoop,Spark,Hbase的伪分布式的安装(全网最全)

weixin_41884148的博客

06-14

771

注意：如果你利用Mac从事开发工作，请务必去了解下Homebrew，他会给你带来很大的便利，下文会细说但是新版的Homebrew有个大问题，他在帮你装软件时会安装最新版，并且大部分软件不支持版本选择，所以要有取舍 Hadoop3.X和Hadoop2.X有较多不同，所以选择目前的额主流Hadoop2.X，大数据分布式搭建尤其注意版本兼容问题在搭建前要先了解Hadoop和Spark的相关基础知识，*** Hbase如果你不需要的话可以不用安装** -如果你觉得网页麻烦，想要良好的阅读体验这有PD..

参与评论您还未登录，请先登录后发表或查看评论

Mac下Hadoop+ spark + Hbase + Kafka + zookeeper环境的搭建

叶小乙研习社

05-06

600

安装必备的环境：操作系统：Mac 10.15.4 软件包管理工具：brew 依赖包JDK: 1.8.0 1、安装java版本 Mac默认安装版本11.0，安装hadoop、hbase、kafka时都要求jdk1.8+, 建议首先安装java8，同时，可以系统保持2个版本参考：Mac上Homebrew安装多版本Java 2、安装hadoop 2.1 配置ssh 配置ssh就是为了能够实现免密登录...

Hbase读写操作

weixin_51309151的博客

12-27

1420

Hbase的读写操作

Hadoop+HBase+Spark伪分布式整合部署(mac)

xiaocong1990的博客

12-01

2062

首先修改主机名(建议): sudo scutil --set HostName hostname Hadoop下载安装: brew install hadoop 找到Hadoop配置文件目录 cd /usr/local/Cellar/hadoop/2.7.3/libexec/etc/hadoop 修改core-site.xml hadoop.tmp.dir

mac系统下安装hadoop+hbase+spark单机版+IDEA和scala编写使用spark来计算的helloworld程序

sxj的专栏

01-13

5708

一、启动ssh服务 1、首先找到系统偏好设置，如下图所示： 2、然后选择共享，如下图所示： 3、然后将远程登录选上，并选择所有用户，如下图所示： 4、此时即可通过ssh登录了。二、建立ssh无密码登录本机 1、ssh生成密钥有rsa和dsa两种生成方式，默认情况下采用rsa方式，首先主机上创建ssh-key，这里我们采用rsa方式。使用如下命令(P是要大写的，后面跟""，...

HBase 2.0集群部署实战：HBase与Spark集成

# 1. 简介 ## 1.1 介绍HBase 2.0集群部署实战的背景和目的 HBase是一个分布式的、可伸缩的、高可靠的...本文的目的是介绍如何在HBase 2.0中搭建集群，并与Spark集成，实现高效的数据存储和分析。我们将分步展示搭建HB

hadoop：hbase：apache-phoenix连接hbase，实现类sql查询（附DBeaver连接方式）

不花的花和尚的博客

08-21

2670

学校

Spark大数据技术（Scala）小白教程（一)——大数据技术概述以及环境配置_spark scala教程

热门推荐

古月慕南的代码世界

10-15

6万+

本文将介绍 1、spark如何利用saveAsHadoopDataset和saveAsNewAPIHadoopDataset将RDD写入hbase 2、spark从hbase中读取数据并转化为RDD 操作方式为在eclipse本地运行spark连接到远程的hbase。 java版本：1.7.0 scala版本：2.10.4 zookeeper版本：3.4.5（禁用了hbase自带zoo

7.读写HBase数据（华为云学习笔记，Spark编程基础，大数据）

GCPOP的博客

06-13

879

读写HBase数据 ① 在hbase-shell中使用命令创建HBase数据库； ② 使用Spark读写HBase数据库中的数据。实验原理 -> HBase HBase是一个高可靠、高性能、面向列、可伸缩的分布式数据库，主要用来存储非结构化和半结构化的松散数据。HBase的目标是处理非常庞大的表，可以通过水平扩展的方式，利用廉价计算机集群处理由超过10亿行数据和数百万列元素组成的数据表。-> hbase-shell hbase-shell是一种HBase交互式操作环境，可以在其中输入命令，完成数据库创建和

Hbase写数据，存数据，读数据的详细过程

chbxw

04-04

6885

HBase架构Region HRegion是HBase中分布式存储和负载均衡的最小单元。最小单元就表示不同的HRegion可以分布在不同的HRegion server上。 HRegion由一个或者多个Store组成，每个store保存一个columns familyHFileStoreFile 以HFile格式保存在HDFS一、写操作 Client写入 -&gt; 存入MemStore，一直

修改ASP网站的文件传输大小的默认限制并对限制大小进行探索

qq_38474647的博客

12-25

207

背景用Windows系统自带的WININET库，开发了一个基于HTTP和HTTPS协议传输的小程序客户端，可以文件或是数据传输到服务器上。本地测试服务器搭建的是ASP服务器。但在进行程序测试的时候，发现有的文件可以传输成功，有的文件则失败，而且传输成功的都是比较小的文件，都是几KB或是十几KB的文件。后来在网上查了相关信息后发现，原来ASP服务器会默认对...

Spark读取与写入文件

林的博客

07-03

1万+

入口在 2.3.0 的Spark版本中, SparkSession是统一的入口了 //创建 SparkSession val spark = SparkSession .builder .appName('MySparkApp') .enableHiveSupport() //开启访问Hive数据, 要将hive-site.xml等文件放入Spark的...

Mac 安装 hadoop+hive+hbase+spark

erct的专栏

09-18

1387

一、 hadoop 1. 安装JDK和Hadoop mac自带jdk，用homebrew安装hadoop，注意brew安装的文件都在/usr/local/Cellar/下 brew install hadoop 2. 配置ssh免密码登录测试一下：ssh localhost 出现 ssh: connect to host localhost port 22: Connection r...

java编写spark程序并行查询hbase指定数据

04-29

Java是一种流行的编程语言，而Spark是一种基于内存的大数据处理框架，支持并行处理。与此同时，HBase是一种分布式NoSQL数据库，通常用于存储大数据。在许多大数据应用程序中，需要将Spark与HBase集成，以便能够使用Spark的显式并行性来查询和分析HBase中的数据。为了编写Spark程序并行查询HBase指定数据，我们需要按照以下步骤进行： 1. 通过Java API或者Scala API连接HBase： 2. 使用Spark Context对象创建一个Spark RDD，并将其分布式化（Parallelize），以便在分布式集群中并行处理数据。 3. 使用HBase API从HBase中读取指定的数据，并将其转换为Spark RDD对象。 4. 在Spark RDD对象上执行计算，并将结果保存到HDFS或者其他外部存储系统中。具体的实现过程如下： 1. 连接HBase：在Java中，我们可以使用HBase Configuration类来连接HBase。代码示例如下： Configuration conf = HBaseConfiguration.create(); conf.set("hbase.zookeeper.quorum", "localhost:2181"); // ZooKeeper服务器地址 TableName table = TableName.valueOf("my_table"); // HTable名称 Connection conn = ConnectionFactory.createConnection(conf); // 创建HBase连接 Table hTable = conn.getTable(table); // 获取HTable实例 2. 创建Spark RDD并分布式化：在Java中，我们可以使用JavaSparkContext类来创建一个Spark RDD。代码示例如下： JavaSparkContext sc = new JavaSparkContext(); List<String> list = Arrays.asList("data1", "data2", "data3"); JavaRDD<String> rdd = sc.parallelize(list); // 创建Spark RDD并分布式化 3. 读取HBase数据：在Java中，我们可以使用HBase Table类来读取HBase中的数据。代码示例如下： Get get = new Get(Bytes.toBytes(rowKey)); // 指定行键 Result result = hTable.get(get); // 读取数据 List<Cell> cells = result.listCells(); // 获取所有的单元格 for (Cell cell : cells) { byte[] value = CellUtil.cloneValue(cell); String data = Bytes.toString(value); System.out.println(data); // 输出数据 } 4. 执行计算并保存结果：在Java中，我们可以使用Spark RDD的操作来执行计算，并将结果保存到HDFS或其他外部存储系统中。代码示例如下： JavaRDD<String> result = rdd.filter(new Function<String, Boolean>() { public Boolean call(String s) { return s.startsWith("data"); } }); result.saveAsTextFile("hdfs://localhost:9000/result_folder"); // 将结果保存到HDFS中综上所述，使用Java编写Spark程序并行查询HBase指定数据需要连接HBase、创建Spark RDD并分布式化、读取HBase数据和执行计算并保存结果等步骤。在实际应用中，我们需要根据具体的业务需求来调整程序逻辑以及执行效率等方面的问题。