BigData
文章平均质量分 60
大数据学习
搬砖的鱼
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
spark Graphx图计算java.lang.AbstractMethodError,connectedComponents
spark Graphx图计算java.lang.AbstractMethodErrorspark.graphx.GraphOps.connectedComponents项目场景:用spark Graphx进行图计算问题描述:图计算报异常如下Exception in thread "main" java.lang.AbstractMethodError at org.apache.spark.internal.Logging$class.initializeLogIfNecessary(Log原创 2021-05-19 09:48:27 · 398 阅读 · 0 评论 -
spark中job,stage,task之间的关系
spark中job,stage,task之间的关系1. 什么是jobJob简单讲就是提交给spark的任务。2. 什么是stageStage是每一个job处理过程要分为的几个阶段。3.什么是taskTask是每一个job处理过程要分几为几次任务。Task是任务运行的最小单位。最终是要以task为单位运行在executor中。4. Job和stage和task之间有什么关系Job <—> 一个或多个stage <—> 一个或多个task下图是一个job分成了三个sta转载 2021-04-26 15:35:45 · 1085 阅读 · 0 评论 -
HBase二级索引的设计原理及简单设计demo
五分钟学会HBase二级索引的设计一、原理“二级多列索引”是针对目标记录的某个或某些列建立的“键-值”数据,以列的值为键,以记录的RowKey为值,当以这些列为条件进行查询时,引擎可以通过检索相应的“键-值”数据快速找到目标记录。由于HBase本身并没有索引机制,为了确保非侵入性,引擎将索引视为普通数据存放在数据表中,所以,如何解决索引与主数据的划分存储是引擎第一个需要处理的问题,为了能获得最佳的性能表现,我们并没有将主数据和索引分表储存,而是将它们存放在了同一张表里,通过给索引和主数据的RowKey添原创 2021-03-19 22:37:25 · 2332 阅读 · 0 评论 -
面对百亿数据,Hbase为什么查询速度依然非常快?
面对百亿数据,Hbase为什么查询速度依然非常快?HBase适合存储PB级别的海量数据(百亿千亿量级条记录),如果根据记录主键Rowkey来查询,能在几十到百毫秒内返回数据。那么Hbase是如何做到的呢?接下来,我介绍一下数据的查询思路和过程。查询过程:第1步:项目有100亿业务数据,存储在一个Hbase集群上(由多个服务器数据节点构成),每个数据节点上有若干个Region(区域),每个Region实际上就是Hbase中一批数据的集合(比如20万条数据)。我们现在开始根据主键RowKey来查询转载 2021-03-19 21:22:10 · 1570 阅读 · 0 评论 -
HBase 数据读写流程
HBase 数据读写流程读数据HBase的表是按行拆分为一个个 region 块儿,这些块儿被放置在各个 regionserver 中假设现在想在用户表中获取 row key 为 row0001 的用户信息要想取得这条数据,就需要先找到含有此条记录的 regionHBase 是如何定位到具体 regionserver 中的具体 region 的呢?HBase 中有一个内置的 hbase:meta 表,其中记录了所有表的所有 region 的详细信息例如 region 的 开始KEY、结束KE转载 2021-03-17 20:58:18 · 243 阅读 · 0 评论 -
WordCount之Spark的三种提交方式
WordCount之Spark的三种提交方式一、编写程序WordCount1、导入相应jar包这些jar包都在saprk的安装包里。2、编写程序package com.cn.sparkimport org.apache.spark.{SparkConf, SparkContext}object WordCount { def main(args: Array[String]): Unit = { val conf=new SparkConf().setAppName("Word转载 2021-03-11 17:44:27 · 299 阅读 · 0 评论 -
自定义InputFormat案例实操
自定义InputFormat案例实操原文链接:https://www.cnblogs.com/Mark-blog/p/11644209.html引言:无论HDFS还是MapReduce,在处理小文件时效率都非常低,但又难免面临处理大量小文件的场景,此时,就需要有相应解决方案。可以自定义InputFormat实现小文件的合并。(对外是一个整文件,对内仍是原先的小文件,节省MapTask)需求如下:将多个小文件合并成一个SequenceFile文件(SequenceFile文件是Hadoop用来存储二转载 2021-03-06 22:11:36 · 364 阅读 · 0 评论 -
spark从hbase读取数据demo,及异常 “dag-scheduler-event-loop“ java.lang.NoSuchMethodError解决
项目场景:spark是从hbase读取数据问题描述:Exception in thread “dag-scheduler-event-loop” java.lang.NoSuchMethodError: org.apache.hadoop.mapreduce.InputSplit.getLocationInfo()[Lorg/apache/hadoop/mapred/SplitLocationInfo;Exception in thread "dag-scheduler-event-loop" j原创 2021-02-04 16:47:04 · 760 阅读 · 0 评论 -
servlet集成hadoop相关组件,java.lang.NoSuchMethodError: org.eclipse.jdt.internal.compiler.CompilationRe异常
项目场景:serverlet集成hadoop+hbase问题描述:erverlet集成hadoop+hbase启动报java.lang.NoSuchMethodError: org.eclipse.jdt.internal.compiler.CompilationRe异常:java.lang.NoSuchMethodError: org.eclipse.jdt.internal.compiler.CompilationRe 原因分析:jar冲突解决方案:删除hadoop中下图jar原创 2021-01-28 14:15:08 · 202 阅读 · 0 评论 -
知乎大佬总结的hbase
我终于看懂了HBase,太不容易了转载 2021-01-25 14:47:27 · 271 阅读 · 0 评论 -
使用flink table api 从kafka中读取数据,kafka数据无法读取错误
kafka正常启动,flink无法消费,也不报错解决办法:配置属性为从所有分区的最新偏移量开始读取startFromLatest()package com.atguigu.apitest.tabletest/*import org.apache.flink.api.scala.ExecutionEnvironmentimport org.apache.flink.streaming.api.scala._import org.apache.flink.table.api.{DataTypes,原创 2020-12-22 20:43:49 · 1118 阅读 · 0 评论 -
Shuffle和Combiner区别详解
概述1)mapreduce中,map阶段处理的数据如何传递给reduce阶段,是mapreduce框架中最关键的一个流程,这个流程就叫shuffle;2)shuffle: 洗牌、发牌(核心机制:数据分区、排序、缓存);3)具体来说:就是将maptask输出的处理结果数据,分发给reducetask,并在分发的过程中,对数据按key进行了分区和排序。2.4.2 Shuffle结构Shuffle缓存流程:shuffle是MR处理流程中的一个过程,它的每一个处理步骤是分散在各个map task和re转载 2020-11-19 11:11:19 · 967 阅读 · 0 评论 -
sparkSql连接hive,找不到Hive数据库或Hive表
项目场景:spark整合Hive,idea本地用spark读取Hive中的数据问题描述:在hive客户端查看数据库spark是存在的但是用spark连接Hive查不到数据库sparkhive> show databases;OKdefaultsparkTime taken: 0.11 seconds, Fetched: 3 row(s) 原因分析:spark没找到Hive的元数据解决方案:加上元素据配置,hive.metastore.urisscala中整合Hive原创 2020-09-27 18:30:05 · 8150 阅读 · 0 评论 -
spark 提交jar包到集群运行报异常java.lang.IllegalArgumentException: java.net.UnknownHostException: mycluster
问题描述:spark 提交jar包到集群运行报异常java.lang.IllegalArgumentException: java.net.UnknownHostException: mycluster 原因分析:spark找不到hadoop集群的相关信息解决方案:spark-env.sh 配置文件中加入hadoop配置文件路径export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop ...原创 2020-09-27 17:43:59 · 1153 阅读 · 0 评论 -
List,JavaRDD和JavaPairRDD的相互转换和打印输出demo
List,JavaRDD和JavaPairRDD的相互转换和打印输出public class ReadTextToRDD { public static void main(String[] args) { SparkConf sparkConf = new SparkConf().setAppName("RDD的打印") .setMaster("local[2]").set("spark.executor.memory", "2g");原创 2020-09-26 10:33:49 · 2400 阅读 · 0 评论 -
RDD和DataFrame和DataSet三者间的区别
RDD和DataFrame和DataSet三者间的区别乌镇风云 2018-11-23 16:25:24 6902 收藏 26版权RDD vs DataFrames vs DataSet在SparkSQL中Spark为我们提供了两个新的抽象,分别是DataFrame和DataSet。他们和RDD有什么区别呢?首先从版本的产生上来看:RDD (Spark1.0) —> Dataframe(Spark1.3) —> Dataset(Spark1.6)如果同样的数据都给到这三个数据结构,他转载 2020-09-24 16:31:45 · 485 阅读 · 0 评论 -
hive静态分区表,动态分区表详解,案例demo
hive静态分区表,动态分区表详解,案例demo数据文本,student.txt1 zhansgan 12 man2 lisi 13 man3 xiaohong 16 woman静态分区:将数据指定分配到某个分区下。创建静态分区表案列#创建表create table student(id string,name string,age string,sex string)PARTITIONED BY(student_age string)ROW FORMAT DELIMITED原创 2020-09-17 11:02:06 · 1889 阅读 · 0 评论 -
hive和hbase整合案例,demo
hive和hbse环境已搭建hive和hbase整合增加配置1、在hive的服务端hive-site.xml配置文件中增加属性: <property> <name>hbase.zookeeper.quorum</name> <value>node001,node002,node003</value> </property>增加后如下<configuration><property&g原创 2020-09-16 17:09:01 · 220 阅读 · 0 评论 -
Hbase的Filter详解使用
参数基础有两个参数类在各类Filter中经常出现,统一介绍下:(1)比较运算符 CompareFilter.CompareOp比较运算符用于定义比较关系,可以有以下几类值供选择:EQUAL 相等GREATER .转载 2020-09-15 15:08:44 · 1175 阅读 · 0 评论 -
mapreduce本地提交给集群中运行,单词统计案例
mapreduce本地提交给集群中运行,单词统计案例修改Runner端package com.bjsxt.wc;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.hbase.client.Put;import org.apache.hadoop.hbase.mapreduce.TableMapReduceUtil;import org.apa原创 2020-09-04 11:40:38 · 298 阅读 · 0 评论 -
mapreduce程序集群模式运行,单词统计案例
mapreduce程序集群模式运行,单词统计案例修改Runner端package com.bjsxt.wc;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.hbase.client.Put;import org.apache.hadoop.hbase.mapreduce.TableMapReduceUtil;import org.apac原创 2020-09-04 11:33:17 · 428 阅读 · 0 评论 -
mapreduce程序本地运行,单词统计案例
mapreduce程序本地运行,单词统计案例统计单词文本,word.txt(位于C:\Users\Think\Desktop\input\word.txt)Stray birds of summer come to my window to sing and fly away And yellow leaves of autumnwhich have no songs flutter and fall there with asign O Troupe of little vagrants原创 2020-09-03 16:40:12 · 325 阅读 · 0 评论 -
org.apache.hadoop.hbase.client.RetriesExhaustedWithDetailsException
org.apache.hadoop.hbase.client.RetriesExhaustedWithDetailsException原因:hbase没创建对应表。建表语句:create 'Student','StuInfo','Grades'原创 2020-09-02 17:46:41 · 2418 阅读 · 0 评论 -
flume采集数据到hdfs,文件内容出现乱码
flume采集数据到hdfs,文件内容出现乱码如SEQ!org.apache.hadoop.io.LongWritable"org.apache.hadoop.io.BytesWritable <詛叧<^牗擵? ) t+z蛰 dfffffffewrfffffffffffrwefref查看flume官网http://flume.apache.org/releases/content/1.9.0/FlumeUserGuide.html#hdfs-sin原创 2020-08-26 17:54:18 · 1115 阅读 · 0 评论 -
hadoop上传文件报错_COPYING_ could only be replicated to 0 nodes。namenode格式化过多次解决办法
hadoop上传文件报错_COPYING_ could only be replicated to 0 nodes。namenode格式化过多次解决办法hadoop上传文件报错。在ui界面查看磁盘使用情况如下图(或用hadoop dfsadmin -report命令查看)磁盘使用情况为0 ,但是namenode,datanode等集群节点均启动正常。查看namenode和datanode的clusterID情况如下:到current目录下查看VERSION文件namenode:datanode1:原创 2020-08-26 17:10:15 · 2323 阅读 · 2 评论 -
Docker 搭建的大数据环境
Docker 搭建的大数据环境,一键启停千锋python学院 2020-01-14 14:47:09代码未动,环境先行我是一个Docker爱好者。我在学习大数据相关技术的时候,想到了一个点子:用docker搭建一个大数据开发环境!这么做有什么好处呢 ?我只要有了这个docker-compose.yml 容器编排描述文件,我就可以在任何一个安装docker 软件的机器里,启动我的大数据环境。一劳永逸的事情,不正是我们程序员每天都在做并且是努力的目标吗?如何做?找遍了国内的博客和帖子,都没有合转载 2020-08-20 09:03:32 · 3079 阅读 · 1 评论 -
IDEA下载python插件总是失败问题
打开插件下载官网查看本机idea版本在插件页面找到对应版本点击下载,期间有时下载失败,点击重试即可原创 2020-07-19 19:42:01 · 503 阅读 · 0 评论 -
reduceByKey与groupByKey的区别
reduceByKeyt与groupByKey的区别?[优化代码的最基本思路](1)当采用reduceByKeyt时,Spark可以在每个分区移动数据之前将待输出数据与一个共用的key结合。借助下图可以理解在reduceByKey里究竟发生了什么。 注意在数据对被搬移前同一机器上同样的key是怎样被组合的(reduceByKey中的lamdba函数)。然后lamdba函数在每个区上被再次调用来将所有值reduce成一个最终结果。整个过程如下:ReduceByKey(2)当采用groupByKey时原创 2020-06-23 15:40:21 · 454 阅读 · 0 评论 -
Spark,常用Transformation类算子
map是对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD。任何原RDD中的元素在新RDD中都有且只有一个元素与之对应val conf = new SparkConf()conf.setAppName("count")conf.setMaster("local")val sc = new SparkContext(conf)val a = sc.parallelize(1 to 9, 3) # x =>*2是一个函数,x是传入参数即RDD的每个元素,x*2是返回值val原创 2020-06-23 15:33:59 · 273 阅读 · 0 评论 -
Spark基本架构及原理
基本架构及原理 Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一,与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势:Spark提供了一个全面、统一的框架用于管理各种有着不同性质(文本数据、图表数据等)的数据集和数据源(批量数据或实时的流数据)的大数据处理的需求官方转载 2020-06-21 13:10:44 · 533 阅读 · 0 评论 -
spark,常用action算子实例
count/** * count 统计RDD共有多少行数据 */object Action_count { def main(args: Array[String]): Unit = { val conf = new SparkConf() conf.setAppName("count") conf.setMaster("local") val sc = new SparkContext(conf) val lines = sc.textFile(".原创 2020-06-20 17:55:09 · 249 阅读 · 0 评论 -
Spark资源调度和任务调度
Spark资源调度和任务调度原创 2020-06-19 09:11:07 · 254 阅读 · 0 评论 -
spark,RDD的宽窄依赖
原创 2020-06-19 09:09:40 · 253 阅读 · 0 评论 -
深入理解Hadoop YARN中的Container概念
深入理解Hadoop YARN中的Container概念在学习Hadoop YARN—Hadoop 2.0新引入的通用资源管理系统过程中,总会遇到Container这一概念,由于中文资料的缺乏,很多人对Container这一概念仍非常的模糊。它与Linux Container是什么关系,它是否能像Linux Container那样为任务提供一个隔离环境?它代表计算资源,还是仅仅是一个任务处理进程?本文将尝试介绍Container这一概念。步骤1:用户将应用程序提交到ResourceManager上;转载 2020-06-09 13:06:48 · 1064 阅读 · 0 评论 -
Flume原理解析
Flume(一)Flume原理解析 </h1> <div class="clear"></div> <div class="postBody">阅读目录(Content)一、Flume简介二、Flume特点三、Flume的一些核心概念3.1、Agent结构 3.2、source3.3、Channel3.4、Sink四、Flume拦截器、数据流以及可靠性4.1、F...转载 2020-05-20 15:21:27 · 541 阅读 · 0 评论 -
zookeeper集群配置异常myid file is missing
zookeeper集群配置异常myid file is missinge1.myid文件没有就加上2.若myid文件有,且配置也正确。但还是提示,myid缺失,解决方法如下查看zoo.cfg配置文件中dataDir路径是否配置正确。该配置的目录即为myid文件所在路径,配置错误,系统也就找不到myid文件。...原创 2020-05-16 15:17:53 · 1251 阅读 · 0 评论 -
Hadoop无法启动JobHistoryServer异常
Error starting JobHistoryServerorg.apache.hadoop.yarn.exceptions.YarnRuntimeException: Error creating done directory: [hdfs://node001:8020/user/history/done]org.apache.hadoop.mapreduce.v2.hs.JobHist...原创 2020-05-03 10:20:50 · 4226 阅读 · 3 评论 -
client.RpcRetryingCaller (RpcRetryingCaller.java:callWithRetries(118)) - Call exception Hbase 异常
client.RpcRetryingCaller (RpcRetryingCaller.java:callWithRetries(118)) - Call exception, tries=11, retries=31, retryTime=99796ms, msg=row ‘scores,’ on table ‘hbase:meta’ at region=hbase:meta,1.158823...原创 2020-04-15 14:49:37 · 3293 阅读 · 2 评论 -
HBase 常用Java API封装
HBase对CRUD 常用java API的封装package com.sxt.hbase;import java.io.IOException;import java.util.ArrayList;import java.util.List;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.h...原创 2020-04-15 09:01:43 · 279 阅读 · 0 评论
分享