BigData_搬砖的鱼的博客-优快云博客

BigData

关注

文章平均质量分 60

大数据学习

关注数：文章数：39 文章阅读量：48240 文章收藏量：141

作者: 搬砖的鱼

这个作者很懒，什么都没留下…

展开

专栏收录文章

spark Graphx图计算java.lang.AbstractMethodError，connectedComponents

spark Graphx图计算java.lang.AbstractMethodErrorspark.graphx.GraphOps.connectedComponents项目场景：用spark Graphx进行图计算问题描述：图计算报异常如下Exception in thread "main" java.lang.AbstractMethodError at org.apache.spark.internal.Logging$class.initializeLogIfNecessary(Log

原创 2021-05-19 09:48:27 · 398 阅读 · 0 评论
spark中job，stage，task之间的关系

spark中job，stage，task之间的关系1. 什么是jobJob简单讲就是提交给spark的任务。2. 什么是stageStage是每一个job处理过程要分为的几个阶段。3.什么是taskTask是每一个job处理过程要分几为几次任务。Task是任务运行的最小单位。最终是要以task为单位运行在executor中。4. Job和stage和task之间有什么关系Job <—> 一个或多个stage <—> 一个或多个task下图是一个job分成了三个sta

转载 2021-04-26 15:35:45 · 1085 阅读 · 0 评论
HBase二级索引的设计原理及简单设计demo

五分钟学会HBase二级索引的设计一、原理“二级多列索引”是针对目标记录的某个或某些列建立的“键-值”数据，以列的值为键，以记录的RowKey为值，当以这些列为条件进行查询时，引擎可以通过检索相应的“键-值”数据快速找到目标记录。由于HBase本身并没有索引机制，为了确保非侵入性，引擎将索引视为普通数据存放在数据表中，所以，如何解决索引与主数据的划分存储是引擎第一个需要处理的问题，为了能获得最佳的性能表现，我们并没有将主数据和索引分表储存，而是将它们存放在了同一张表里，通过给索引和主数据的RowKey添

原创 2021-03-19 22:37:25 · 2332 阅读 · 0 评论
面对百亿数据，Hbase为什么查询速度依然非常快？

面对百亿数据，Hbase为什么查询速度依然非常快？HBase适合存储PB级别的海量数据（百亿千亿量级条记录），如果根据记录主键Rowkey来查询，能在几十到百毫秒内返回数据。那么Hbase是如何做到的呢？接下来，我介绍一下数据的查询思路和过程。查询过程：第1步：项目有100亿业务数据，存储在一个Hbase集群上（由多个服务器数据节点构成），每个数据节点上有若干个Region（区域），每个Region实际上就是Hbase中一批数据的集合（比如20万条数据）。我们现在开始根据主键RowKey来查询

转载 2021-03-19 21:22:10 · 1570 阅读 · 0 评论
HBase 数据读写流程

HBase 数据读写流程读数据HBase的表是按行拆分为一个个 region 块儿，这些块儿被放置在各个 regionserver 中假设现在想在用户表中获取 row key 为 row0001 的用户信息要想取得这条数据，就需要先找到含有此条记录的 regionHBase 是如何定位到具体 regionserver 中的具体 region 的呢？HBase 中有一个内置的 hbase:meta 表，其中记录了所有表的所有 region 的详细信息例如 region 的开始KEY、结束KE

转载 2021-03-17 20:58:18 · 243 阅读 · 0 评论
WordCount之Spark的三种提交方式

WordCount之Spark的三种提交方式一、编写程序WordCount1、导入相应jar包这些jar包都在saprk的安装包里。2、编写程序package com.cn.sparkimport org.apache.spark.{SparkConf, SparkContext}object WordCount { def main(args: Array[String]): Unit = { val conf=new SparkConf().setAppName("Word

转载 2021-03-11 17:44:27 · 299 阅读 · 0 评论
自定义InputFormat案例实操

自定义InputFormat案例实操原文链接：https://www.cnblogs.com/Mark-blog/p/11644209.html引言：无论HDFS还是MapReduce，在处理小文件时效率都非常低，但又难免面临处理大量小文件的场景，此时，就需要有相应解决方案。可以自定义InputFormat实现小文件的合并。（对外是一个整文件，对内仍是原先的小文件，节省MapTask）需求如下：将多个小文件合并成一个SequenceFile文件（SequenceFile文件是Hadoop用来存储二

转载 2021-03-06 22:11:36 · 364 阅读 · 0 评论
spark从hbase读取数据demo，及异常 “dag-scheduler-event-loop“ java.lang.NoSuchMethodError解决

项目场景：spark是从hbase读取数据问题描述：Exception in thread “dag-scheduler-event-loop” java.lang.NoSuchMethodError: org.apache.hadoop.mapreduce.InputSplit.getLocationInfo()[Lorg/apache/hadoop/mapred/SplitLocationInfo;Exception in thread "dag-scheduler-event-loop" j

原创 2021-02-04 16:47:04 · 760 阅读 · 0 评论
servlet集成hadoop相关组件，java.lang.NoSuchMethodError: org.eclipse.jdt.internal.compiler.CompilationRe异常

项目场景：serverlet集成hadoop+hbase问题描述：erverlet集成hadoop+hbase启动报java.lang.NoSuchMethodError: org.eclipse.jdt.internal.compiler.CompilationRe异常：java.lang.NoSuchMethodError: org.eclipse.jdt.internal.compiler.CompilationRe 原因分析：jar冲突解决方案：删除hadoop中下图jar

原创 2021-01-28 14:15:08 · 202 阅读 · 0 评论
知乎大佬总结的hbase

我终于看懂了HBase，太不容易了

转载 2021-01-25 14:47:27 · 271 阅读 · 0 评论
使用flink table api 从kafka中读取数据,kafka数据无法读取错误

kafka正常启动，flink无法消费，也不报错解决办法：配置属性为从所有分区的最新偏移量开始读取startFromLatest()package com.atguigu.apitest.tabletest/*import org.apache.flink.api.scala.ExecutionEnvironmentimport org.apache.flink.streaming.api.scala._import org.apache.flink.table.api.{DataTypes,

原创 2020-12-22 20:43:49 · 1118 阅读 · 0 评论
Shuffle和Combiner区别详解

概述1）mapreduce中，map阶段处理的数据如何传递给reduce阶段，是mapreduce框架中最关键的一个流程，这个流程就叫shuffle；2）shuffle: 洗牌、发牌（核心机制：数据分区、排序、缓存）；3）具体来说：就是将maptask输出的处理结果数据，分发给reducetask，并在分发的过程中，对数据按key进行了分区和排序。2.4.2 Shuffle结构Shuffle缓存流程：shuffle是MR处理流程中的一个过程，它的每一个处理步骤是分散在各个map task和re

转载 2020-11-19 11:11:19 · 967 阅读 · 0 评论
sparkSql连接hive，找不到Hive数据库或Hive表

项目场景：spark整合Hive，idea本地用spark读取Hive中的数据问题描述：在hive客户端查看数据库spark是存在的但是用spark连接Hive查不到数据库sparkhive> show databases;OKdefaultsparkTime taken: 0.11 seconds, Fetched: 3 row(s) 原因分析：spark没找到Hive的元数据解决方案：加上元素据配置，hive.metastore.urisscala中整合Hive

原创 2020-09-27 18:30:05 · 8150 阅读 · 0 评论
spark 提交jar包到集群运行报异常java.lang.IllegalArgumentException: java.net.UnknownHostException: mycluster

问题描述：spark 提交jar包到集群运行报异常java.lang.IllegalArgumentException: java.net.UnknownHostException: mycluster 原因分析：spark找不到hadoop集群的相关信息解决方案：spark-env.sh 配置文件中加入hadoop配置文件路径export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop ...

原创 2020-09-27 17:43:59 · 1153 阅读 · 0 评论
List，JavaRDD和JavaPairRDD的相互转换和打印输出demo

List，JavaRDD和JavaPairRDD的相互转换和打印输出public class ReadTextToRDD { public static void main(String[] args) { SparkConf sparkConf = new SparkConf().setAppName("RDD的打印") .setMaster("local[2]").set("spark.executor.memory", "2g");

原创 2020-09-26 10:33:49 · 2400 阅读 · 0 评论
RDD和DataFrame和DataSet三者间的区别

RDD和DataFrame和DataSet三者间的区别乌镇风云 2018-11-23 16:25:24 6902 收藏 26版权RDD vs DataFrames vs DataSet在SparkSQL中Spark为我们提供了两个新的抽象，分别是DataFrame和DataSet。他们和RDD有什么区别呢？首先从版本的产生上来看：RDD (Spark1.0) —> Dataframe(Spark1.3) —> Dataset(Spark1.6)如果同样的数据都给到这三个数据结构，他

转载 2020-09-24 16:31:45 · 485 阅读 · 0 评论
hive静态分区表，动态分区表详解，案例demo

hive静态分区表，动态分区表详解，案例demo数据文本，student.txt1 zhansgan 12 man2 lisi 13 man3 xiaohong 16 woman静态分区：将数据指定分配到某个分区下。创建静态分区表案列#创建表create table student(id string,name string,age string,sex string)PARTITIONED BY(student_age string)ROW FORMAT DELIMITED

原创 2020-09-17 11:02:06 · 1889 阅读 · 0 评论
hive和hbase整合案例，demo

hive和hbse环境已搭建hive和hbase整合增加配置1、在hive的服务端hive-site.xml配置文件中增加属性： <property> <name>hbase.zookeeper.quorum</name> <value>node001,node002,node003</value> </property>增加后如下<configuration><property&g

原创 2020-09-16 17:09:01 · 220 阅读 · 0 评论
Hbase的Filter详解使用

参数基础有两个参数类在各类Filter中经常出现，统一介绍下：（1）比较运算符 CompareFilter.CompareOp比较运算符用于定义比较关系，可以有以下几类值供选择：EQUAL 相等GREATER .

转载 2020-09-15 15:08:44 · 1175 阅读 · 0 评论
mapreduce本地提交给集群中运行，单词统计案例

mapreduce本地提交给集群中运行，单词统计案例修改Runner端package com.bjsxt.wc;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.hbase.client.Put;import org.apache.hadoop.hbase.mapreduce.TableMapReduceUtil;import org.apa

原创 2020-09-04 11:40:38 · 298 阅读 · 0 评论
mapreduce程序集群模式运行，单词统计案例

mapreduce程序集群模式运行，单词统计案例修改Runner端package com.bjsxt.wc;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.hbase.client.Put;import org.apache.hadoop.hbase.mapreduce.TableMapReduceUtil;import org.apac

原创 2020-09-04 11:33:17 · 428 阅读 · 0 评论
mapreduce程序本地运行，单词统计案例

mapreduce程序本地运行，单词统计案例统计单词文本，word.txt（位于C:\Users\Think\Desktop\input\word.txt）Stray birds of summer come to my window to sing and fly away And yellow leaves of autumnwhich have no songs flutter and fall there with asign O Troupe of little vagrants

原创 2020-09-03 16:40:12 · 325 阅读 · 0 评论
org.apache.hadoop.hbase.client.RetriesExhaustedWithDetailsException

org.apache.hadoop.hbase.client.RetriesExhaustedWithDetailsException原因：hbase没创建对应表。建表语句：create 'Student','StuInfo','Grades'

原创 2020-09-02 17:46:41 · 2418 阅读 · 0 评论
flume采集数据到hdfs，文件内容出现乱码

flume采集数据到hdfs，文件内容出现乱码如SEQ!org.apache.hadoop.io.LongWritable"org.apache.hadoop.io.BytesWritable <詛叧<^牗擵? ) t+z蛰 dfffffffewrfffffffffffrwefref查看flume官网http://flume.apache.org/releases/content/1.9.0/FlumeUserGuide.html#hdfs-sin

原创 2020-08-26 17:54:18 · 1115 阅读 · 0 评论
hadoop上传文件报错_COPYING_ could only be replicated to 0 nodes。namenode格式化过多次解决办法

hadoop上传文件报错_COPYING_ could only be replicated to 0 nodes。namenode格式化过多次解决办法hadoop上传文件报错。在ui界面查看磁盘使用情况如下图（或用hadoop dfsadmin -report命令查看）磁盘使用情况为0 ，但是namenode,datanode等集群节点均启动正常。查看namenode和datanode的clusterID情况如下：到current目录下查看VERSION文件namenode：datanode1：

原创 2020-08-26 17:10:15 · 2323 阅读 · 2 评论
Docker 搭建的大数据环境

Docker 搭建的大数据环境，一键启停千锋python学院 2020-01-14 14:47:09代码未动，环境先行我是一个Docker爱好者。我在学习大数据相关技术的时候，想到了一个点子：用docker搭建一个大数据开发环境！这么做有什么好处呢？我只要有了这个docker-compose.yml 容器编排描述文件，我就可以在任何一个安装docker 软件的机器里，启动我的大数据环境。一劳永逸的事情，不正是我们程序员每天都在做并且是努力的目标吗？如何做？找遍了国内的博客和帖子，都没有合

转载 2020-08-20 09:03:32 · 3079 阅读 · 1 评论
IDEA下载python插件总是失败问题

打开插件下载官网查看本机idea版本在插件页面找到对应版本点击下载，期间有时下载失败，点击重试即可

原创 2020-07-19 19:42:01 · 503 阅读 · 0 评论
reduceByKey与groupByKey的区别

reduceByKeyt与groupByKey的区别？[优化代码的最基本思路]（1）当采用reduceByKeyt时，Spark可以在每个分区移动数据之前将待输出数据与一个共用的key结合。借助下图可以理解在reduceByKey里究竟发生了什么。注意在数据对被搬移前同一机器上同样的key是怎样被组合的(reduceByKey中的lamdba函数)。然后lamdba函数在每个区上被再次调用来将所有值reduce成一个最终结果。整个过程如下：ReduceByKey（2）当采用groupByKey时

原创 2020-06-23 15:40:21 · 454 阅读 · 0 评论
Spark,常用Transformation类算子

map是对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD。任何原RDD中的元素在新RDD中都有且只有一个元素与之对应val conf = new SparkConf()conf.setAppName("count")conf.setMaster("local")val sc = new SparkContext(conf)val a = sc.parallelize(1 to 9, 3) # x =>*2是一个函数，x是传入参数即RDD的每个元素，x*2是返回值val

原创 2020-06-23 15:33:59 · 273 阅读 · 0 评论
Spark基本架构及原理

基本架构及原理 Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架，最初在2009年由加州大学伯克利分校的AMPLab开发，并于2010年成为Apache的开源项目之一，与Hadoop和Storm等其他大数据和MapReduce技术相比，Spark有如下优势：Spark提供了一个全面、统一的框架用于管理各种有着不同性质（文本数据、图表数据等）的数据集和数据源（批量数据或实时的流数据）的大数据处理的需求官方

转载 2020-06-21 13:10:44 · 533 阅读 · 0 评论
spark，常用action算子实例

count/** * count 统计RDD共有多少行数据 */object Action_count { def main(args: Array[String]): Unit = { val conf = new SparkConf() conf.setAppName("count") conf.setMaster("local") val sc = new SparkContext(conf) val lines = sc.textFile(".

原创 2020-06-20 17:55:09 · 249 阅读 · 0 评论
Spark资源调度和任务调度

Spark资源调度和任务调度

原创 2020-06-19 09:11:07 · 254 阅读 · 0 评论
spark，RDD的宽窄依赖

原创 2020-06-19 09:09:40 · 253 阅读 · 0 评论
深入理解Hadoop YARN中的Container概念

深入理解Hadoop YARN中的Container概念在学习Hadoop YARN—Hadoop 2.0新引入的通用资源管理系统过程中，总会遇到Container这一概念，由于中文资料的缺乏，很多人对Container这一概念仍非常的模糊。它与Linux Container是什么关系，它是否能像Linux Container那样为任务提供一个隔离环境?它代表计算资源，还是仅仅是一个任务处理进程？本文将尝试介绍Container这一概念。步骤1：用户将应用程序提交到ResourceManager上；

转载 2020-06-09 13:06:48 · 1064 阅读 · 0 评论
Flume原理解析

Flume（一）Flume原理解析 </h1> <div class="clear"></div> <div class="postBody">阅读目录(Content)一、Flume简介二、Flume特点三、Flume的一些核心概念3.1、Agent结构　　3.2、source3.3、Channel3.4、Sink四、Flume拦截器、数据流以及可靠性4.1、F...

转载 2020-05-20 15:21:27 · 541 阅读 · 0 评论
zookeeper集群配置异常myid file is missing

zookeeper集群配置异常myid file is missinge1.myid文件没有就加上2.若myid文件有，且配置也正确。但还是提示，myid缺失，解决方法如下查看zoo.cfg配置文件中dataDir路径是否配置正确。该配置的目录即为myid文件所在路径，配置错误，系统也就找不到myid文件。...

原创 2020-05-16 15:17:53 · 1251 阅读 · 0 评论
Hadoop无法启动JobHistoryServer异常

Error starting JobHistoryServerorg.apache.hadoop.yarn.exceptions.YarnRuntimeException: Error creating done directory: [hdfs://node001:8020/user/history/done]org.apache.hadoop.mapreduce.v2.hs.JobHist...

原创 2020-05-03 10:20:50 · 4226 阅读 · 3 评论
client.RpcRetryingCaller (RpcRetryingCaller.java:callWithRetries(118)) - Call exception Hbase 异常

client.RpcRetryingCaller (RpcRetryingCaller.java:callWithRetries(118)) - Call exception, tries=11, retries=31, retryTime=99796ms, msg=row ‘scores,’ on table ‘hbase:meta’ at region=hbase:meta,1.158823...

原创 2020-04-15 14:49:37 · 3293 阅读 · 2 评论
HBase 常用Java API封装

HBase对CRUD 常用java API的封装package com.sxt.hbase;import java.io.IOException;import java.util.ArrayList;import java.util.List;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.h...

原创 2020-04-15 09:01:43 · 279 阅读 · 0 评论

BigData

作者: 搬砖的鱼

spark Graphx图计算java.lang.AbstractMethodError，connectedComponents

spark中job，stage，task之间的关系

HBase二级索引的设计原理及简单设计demo

面对百亿数据，Hbase为什么查询速度依然非常快？

HBase 数据读写流程

WordCount之Spark的三种提交方式

自定义InputFormat案例实操

spark从hbase读取数据demo，及异常 “dag-scheduler-event-loop“ java.lang.NoSuchMethodError解决

servlet集成hadoop相关组件，java.lang.NoSuchMethodError: org.eclipse.jdt.internal.compiler.CompilationRe异常

知乎大佬总结的hbase

使用flink table api 从kafka中读取数据,kafka数据无法读取错误

Shuffle和Combiner区别详解

sparkSql连接hive，找不到Hive数据库或Hive表

spark 提交jar包到集群运行报异常java.lang.IllegalArgumentException: java.net.UnknownHostException: mycluster

List，JavaRDD和JavaPairRDD的相互转换和打印输出demo

RDD和DataFrame和DataSet三者间的区别

hive静态分区表，动态分区表详解，案例demo

hive和hbase整合案例，demo

Hbase的Filter详解使用

mapreduce本地提交给集群中运行，单词统计案例

mapreduce程序集群模式运行，单词统计案例

mapreduce程序本地运行，单词统计案例

org.apache.hadoop.hbase.client.RetriesExhaustedWithDetailsException

flume采集数据到hdfs，文件内容出现乱码

hadoop上传文件报错_COPYING_ could only be replicated to 0 nodes。namenode格式化过多次解决办法

Docker 搭建的大数据环境

IDEA下载python插件总是失败问题

reduceByKey与groupByKey的区别

Spark,常用Transformation类算子

Spark基本架构及原理

spark，常用action算子实例

Spark资源调度和任务调度

spark，RDD的宽窄依赖

深入理解Hadoop YARN中的Container概念

Flume原理解析

zookeeper集群配置异常myid file is missing

Hadoop无法启动JobHistoryServer异常

client.RpcRetryingCaller (RpcRetryingCaller.java:callWithRetries(118)) - Call exception Hbase 异常

HBase 常用Java API封装