
Spark
文章平均质量分 68
其实我是真性情
每天早上起来,我都会看看福布斯榜上有没有自己的名字,如果没有我就去上班!!!
展开
-
Spark Structured Streaming HelloWorld
Spark Structured Streaming原创 2022-07-25 15:23:32 · 236 阅读 · 0 评论 -
Spark加载HDFS parquet数据,批量插入HBASE例子及一个问题优化
场景HDFS上存储了大量的parquet文件,我需要抽取其中几个字段存储到HBASE里。中间出现了一个问题,应该是一次批量提交的数据量太多了,所以一致卡着,提示:INFO AsyncRequestFutureImpl: #3, waiting for 172558 actions to finish on table:网上没超导怎么解决,最后自己优化了一下代码解决了代码主函数:HBase2HDFSLocalTestimport org.apache.spark.sql.{DataFrame原创 2022-03-31 16:38:47 · 2274 阅读 · 0 评论 -
Spark structured streaming+kafka 数据输入与输出不相等
前言最新在写structured streaming的程序,发现kafka输入和输出的数据不成比例,正常如果你的group里只有一个消费者,那么应该输入和输出是相等的才对。但是我的生产者和消费者2边的数据不一样,如下图:我的2个 topic,test19和test20可以看到2个程序的输出数据基本是输入的10倍,这肯定有问题,因此我要做几个实验,来验证到底是哪里除了问题,争取解决此问题。实验1:实现过程:从kafka获取输入后直接输出到另外一个topic里:输入topic:test31,输出t原创 2021-04-02 15:15:30 · 366 阅读 · 0 评论 -
Spqrk-SQL DataFrame foreachPartition 丢失数据,代码不执行,究竟是什么神仙操作
发现了一个非常诡异的问题,正在解决当中,把诡异问题记录下来,有问题的是(代码一)示例,我的table.put(putList)这段代从效果上看没执行,从日志上我能看出来putList里的数据越来越多。putList.size()一直在增加但是我如果把val table: Table = HBaseConnectionManager.getConnection().getTable(TableName.valueOf(tableName))这个table的声明放在iterator.foreach的前.原创 2021-03-25 16:54:12 · 1316 阅读 · 0 评论 -
Windows操作系统下本地跑Spark常见问题总结
Windows操作系统下本地跑Spark常见问题总结前言前言Spark Structured Streaming+Kafka+Hbase Scala版教程,整体入口。原创 2021-02-22 16:16:33 · 709 阅读 · 0 评论 -
Maven工程对应相关依赖查询
Maven工程对应相关依赖查询前言正文前言Spark Structured Streaming+Kafka+Hbase Scala版例子,整体入口。正文这个其实很简单,但是我发现我手下的开发人员确实有不知道怎么查了,就简单介绍一下。我一般就是直接在这个网址查https://mvnrepository.com/最简单的办法就是百度搜你要的框架名+maven,一般前几个结果里就是这个网站。例如我现在要开发spark,那么我百度搜spark-sql maven,记得2个关键字中间带个空格.进去之原创 2021-02-22 16:03:59 · 517 阅读 · 0 评论 -
IDEA开发Spark+Mavan+Scala语言环境搭建
IDEA开发Spark+Mavan+Scala语言环境搭建前言正文前言Spark Structured Streaming+Kafka+Hbase Scala版例子,整体入口。正文我是要开发Spark程序,开发工具是IDEA;同时需要使用Maven构建项目,语言我准备用Scala;因为JAVA的SparkAPI实在是太难懂了。下载IDEA,JDK,SCALA不写了,太简单1.Mavan+Scala搭建,很多人用的是下图的方法,但是我发现不好,因为会引入很多我不想要的东西,因为我是从头搭建,所以我原创 2021-02-22 15:26:17 · 295 阅读 · 0 评论 -
Spark Structured Streaming+Kafka+Hbase Scala版-学习笔记
Spark Structured Streaming+Kafka+Hbase Scala版例子前言环境介绍目录第一章 环境搭建前言最新在写Spark中间遇到很多坑,在这里总结下来供后来人参考,主要是因为网上的例子真的太少了,而且写的不详细,下边是我集合自己环境以及业务的代码样例。这里只有代码没有环境搭建的内容。环境介绍开发工具IDEA集群环境CDP7.1.4,kafka和Hbase的对应版本后续会具体介绍语言Scala目录第一章 环境搭建IDEA开发Spark例子,Scala语言版环境搭建原创 2021-02-22 14:31:55 · 561 阅读 · 2 评论 -
CDP集群对应Kafka,Hbase版本号查询
IDEA开发Spark例子,Scala语言版前言前言Spark Structured Streaming+Kafka+Hbase Scala版例子,整体入口。原创 2021-02-22 14:29:21 · 701 阅读 · 0 评论 -
Python & Spark学习笔记系列 【第三章】例子:Python+Spark+Hbase
这里我的原始数据在Hbase里,以下会介绍两种方式可以通过Spark达到操作Hbase的效果。第一种:Spark直连HBase代码如下,但是这里我遇到了一个问题,就是下边代码中使用到的org.apache.hadoop.hbase.io.ImmutableBytesWritable,我使用IDEA本地运行提示找不到这个类,报错是:java.lang.ClassNotFoundExcep...原创 2019-03-04 10:00:55 · 1043 阅读 · 5 评论 -
Python & Spark学习笔记系列 【第一章】环境搭建 pyspark安装
Python语言怎么安装这里就不写了,网上有好多,IDEA安装是我按的Python插件如下图:安装Python语言环境和插件以后,还要安装pyspark类库,因为默认Python是不带这些类库的。这里安装遇到一个小坑,简单说下。如果网络没问题的话可以直接cmd进入命令行,时候输入命令pip install pyspark,就可以安装了。但是默认是pyspark的latest版本...原创 2019-02-14 11:22:47 · 2159 阅读 · 0 评论 -
Python & Spark学习笔记系列---目录
作为一个Java程序员,到目前为基本不具备Python与Spark的经验。接下来会按学习步骤写下所有Python与Spark学习中遇到的坑。为什么选Python而不是Scala和Java,这里的原因是,Java的SparkAPI写法特别繁琐不好理解,Scala本身也没有经验。但是大数据分析后可能会继续学习机器学习人工智能相关的东西,现在最火的基本就是Python,因此学习Python,...原创 2019-02-14 10:44:03 · 353 阅读 · 0 评论 -
Python & Spark学习笔记系列 【第二章】例子:单词统计+文件存储
一般Spark上来好像都是单词统计,这里我也写一个,之后再带上点其他的函数,Spark和Python语法是真的难理解,这里我把我的理解都写在程序代码注解上了,直接上代码from pyspark import SparkContext, SparkConfimport os# 没有这句会报错os.environ['JAVA_HOME'] = 'D:\Java\jdk1.8.0_92'...原创 2019-02-22 10:14:06 · 648 阅读 · 1 评论 -
Kafka+SparkStreaming解析Json数据并插入Hbase,包含部分业务逻辑
以下代码是在学习Spark时候自己写的例子,还不成熟,仅供记录和参考下边直接上代码,我在我觉得有用的位置加了比较详细的注解import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;import org.apache.hadoop.hbase.client.P...原创 2018-03-01 09:38:01 · 8941 阅读 · 1 评论