
BigData
文章平均质量分 55
Called_Kingsley
想当摄影师的一个大数据工程师
展开
-
java操作hdfs报错:Operation category READ is not supported in state standby
报错信息INFO o.a.h.i.retry.RetryInvocationHandler 236b33af11c8ab85a731ef390ef31cbe - Exception while invoking getFileInfo of class ClientNamenodeProtocolTranslatorPB over xxxxxxxxxx:8020 after 6 fail over attempts. Trying to fail over after sleeping for 200原创 2022-04-12 13:49:00 · 3322 阅读 · 0 评论 -
Spark Container killed by YARN for exceeding memory limits. 11.1 GB of 11 GB physical memory used
公司 SparkSql运行出现问题 同事要求帮忙排查下原因日志:19-10-2021 10:12:06 CST SPARK_SQL-1632390310963 INFO - SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.19-10-2021 10:12:06 CST SPARK_SQL-1632390310963 INFO - SLF4J: Actual binding is of typ原创 2021-10-21 16:43:04 · 1597 阅读 · 0 评论 -
Spark standalone初体验2 -Spark 提交任务设置参数
Spark 提交任务设置参数MASTER=spark://rhel731:7077 spark-shell --executor-cores=3 --total-executor-cores 9MASTER参数指定 集群的master--executor-cores是每个executor使用的cpu核数--total-executor-cores是该任务所有executor总共使用的cpu核数--executor-memory 是指定每个executor(执行器)占用的内存如果不指定参数,那原创 2020-05-14 16:48:01 · 787 阅读 · 0 评论 -
CentOS 6.7Spark 单机模式环境搭建
Spark 单机模式环境搭建目录Spark 单机模式环境搭建1.下载Spark安装包2.配置环境变量3.安装scala和python4.设置conf5.启动集群5.1 启动master5.2 启动slave6. spark-shell7.关闭集群1.下载Spark安装包cd /opt Spark下载链接:http://spark.apache.org/downloads.html 复制到自己的目录 ,并解压 tar -zxvf spark-3.0.0-preview2-bin-hadoop原创 2020-05-14 11:09:23 · 248 阅读 · 0 评论 -
Kafka java调用生产者和消费者API
Kafka 使用命令行1.搭建环境在自己的Vmware上搭建一个kafka环境1.下载kafka2.启动kafka自带的zookeeper进入kafka安装目录:bin/zookeeper-server-start.sh config/zookeeper.properties启动kafka服务bin/kafka-server-start.sh config/server.properties这样的话 kafka服务就算起来了。2.创建Topicbin/kafka-原创 2020-05-11 17:18:51 · 420 阅读 · 0 评论 -
Hive通过JDBC调用执行操作
Hive JDBC1.导入pom依赖 <dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-jdbc</artifactId> <version>3.1.0</vers...原创 2020-04-26 14:29:28 · 837 阅读 · 0 评论 -
Zookeeper官方文档学习
目录Zookeeper 3.5官方文档学习介绍Design Goals(设计目标)Data model and the hierarchical namespace(数据模型和分层名称空间)Nodes and ephemeral nodes(节点和短暂节点:)Conditional updates and watches (有条件的更新和监视)Guarantees(一致性的保证)Simple AP...原创 2020-04-26 10:50:40 · 1002 阅读 · 0 评论 -
windows10平台上测试flume kafkaSource->kafkaSink
windows10平台上测试flume kafkaSource->kafkaSink1.安装kafka 1.1 下载官网安装包 :http://kafka.apache.org/downloads Binary downloads:下的某一个版本即可 选择合适的版本 1.2 解压到不包含中文字符的路径下,(重要:尽量路径短一些 因为路...原创 2020-01-09 18:05:35 · 233 阅读 · 0 评论 -
reduceBykey和groupBykey的区别
通过源码可以发现:reduceByKey:reduceByKey会在结果发送至reducer之前会对每个mapper在本地进行merge,有点类似于在MapReduce中的combiner。这样做的好处在于,在map端进行一次reduce之后,数据量会大幅度减小,从而减小传输,保证reduce端能够更快的进行结果计算。groupByKey:groupByKey会对每一个RDD中的...转载 2019-04-19 09:56:56 · 335 阅读 · 0 评论 -
如何动态地向hadoop集群添加一个新节点
1.将namenode的hadoop文件全部复制到新节点。2.修改每个节点的hosts文件,将节点四的名字加入进去。3.配置ssh免密登录,使得namenode登录新节点的时候不需要输入密码。4.修改各节点的slaves文件,加入新节点的名称。5.单独启动该节点上的Datanode进程和NodeManager进程。 hadoop-daemon.sh start data...原创 2019-04-19 09:47:09 · 889 阅读 · 1 评论 -
hive 分区(partition)
Hive组织表到分区。它是将一个表到基于分区列,如日期,城市和部门的值相关方式。使用分区,很容易对数据进行部分查询。例如,一个名为Tab1表包含雇员数据,如 id, name, dept 和yoj (即加盟年份)。假设需要检索所有在2012年加入,查询搜索整个表所需的信息员工的详细信息。但是,如果用年份分区雇员数据并将其存储在一个单独的文件,它减少了查询处理时间。1、一个表可以拥有一...原创 2019-04-07 11:19:43 · 665 阅读 · 0 评论 -
maven编译Spark失败 java.lang.OutOfMemoryError: Java heap space
刚开始执行mvn 编译命令的时候没添加选项 -e,出错之后没有错误提示,第二次加上了-e才有了下面两张截图说明什么呢,编译时我们给JVM分配的Xmx不够,导致溢出,所以这个时候给maven指定一个大点的Xms值,export MAVEN_OPTS='-Xms256m -Xmx1024m'应该就可以了。...原创 2019-03-31 16:37:37 · 711 阅读 · 0 评论 -
hive搭建过程遇到的一些坑
首先解压那些就不说了,前提条件是你有hadoop集群,以及mysql来存储MetaData;1.就是进入到hive里面去修改hive-env.xml这个文件里面主要设置hadoop路径.2.进入hive-site.xml里面去配置一些关于连接mysql的属性其中第一二个属性是mysql数据库的用户名和对应密码,这里我们配置为root登入。第三个属性是你自己在mysql...原创 2019-04-04 16:21:40 · 311 阅读 · 0 评论 -
Hadoop启动错误--没有datanode or namenode
最近在自学hadoop,处于前期配置阶段,遇到好一些问题,这个问题比较经典,记录一下。这有可能是因为我每次关闭服务器的时候,没有执行stop-all.sh 命令停止Hadoop。解决方法如下:(1)首先,运行stop-all.sh(2)检查masters文件和slaves文件 配置有无出错。(3)格式化namenode,在这之前,需要先删除原目录,即core-site.xml文件下...原创 2018-06-13 19:26:47 · 1842 阅读 · 0 评论 -
hadoop集群启动之后,datanode进程未启动解决办法
这种情况一般是由于自己进行hadoop格式化的时候没有事先结束所有进程,或者在开启一次hadoop集群,发现配置不对,这时重新 hadoop namenode -format 就会出问题因为此时你format之后, datanode的clusterID 和 namenode的clusterID 就不匹配了不匹配别人就不给你开启datanode。处理方法就是:首先找到clusterID...原创 2018-08-12 10:13:56 · 3521 阅读 · 13 评论 -
Flume.apache.org 官方文档学习笔记 part five
kafka 源: Kafka 源是Apache Kafka 消耗者,读取来自kafka主题的信息。如果你有多个Kafka源在运行,你可以给他们配置一样的使用者群组,以便每个源都读取一组唯一的主题分区。 要注意的是:Kafka源重写了两个kafka消费者属性,auto-commit可以被此源设置为“false",并且每...原创 2018-10-21 14:55:17 · 687 阅读 · 0 评论 -
Flume.apache.org 官方文档学习笔记 part four
JMS 源: jms源阅读从jms目的地发来的信息,例如队列,主题等。 作为一个jms应用程序,他应该和jms提供程序一起工作,但是仅使用ActiveMQ进行测试。JMS源提供可配置的批量大小,消息选择器,用户/传递还有消息到接收器事件转换器。 要注意的是,供应商提供的jms jar包 应该包括在flume的类路径中,使用plugins.d目录(首选),命令行上的-cla...原创 2018-10-21 10:32:17 · 297 阅读 · 0 评论 -
Flume.apache.org 官方文档学习笔记 part three
flume 源 avro 源 监听 Avro的端口和从外部的Avro客户端数据流接收事件,当built-Avro 接收器和另一个流代理配对时,他可以创建层列式收集拓扑,所需的属性用粗体表示了: Example for agent named a1: a1.sources = r1a1.channels = c1a1.sources.r1.t...原创 2018-10-20 15:24:59 · 350 阅读 · 0 评论 -
Flume.apache.org 官方文档学习笔记 part two
配置个体组件: 当你定义了这个流之后,你需要去设置每个资源、接收器、信道的属性。这是在你设置组件类型和每个组件的特定属性值的同一层命名空间内完成的。# properties for sources<Agent>.sources.<Source>.<someProperty> = <someValue># propert...原创 2018-10-20 13:55:03 · 209 阅读 · 0 评论 -
Flume.apache.org 官方文档学习笔记 part one
Apache Flume是一个分布式,可靠且可用的系统,用于有效地从许多不同的源收集,聚合和移动大量日志数据到集中式数据存储。Apache Flume的使用不仅限于日志数据聚合。由于数据源是可定制的,因此Flume可用于传输大量事件数据,包括但不限于网络流量数据,社交媒体生成的数据,电子邮件消息以及几乎任何可能的数据源。Apache Flume是Apache Software Fo...原创 2018-10-20 09:41:27 · 327 阅读 · 0 评论 -
Hadoop ——mapreduce——partitioner 理解
partitioner是在mapreduce的map过程之后,将mapper输出文件分成几个文件,再交由reducer处理。之前老以为是在reducer阶段进行的partitioner,所以导致自己写了分区类,有了不同的文件输出,但是输出文件中的其中一个文件什么都没有。code:import org.apache.hadoop.io.IntWritable;import or...原创 2018-10-19 16:13:04 · 507 阅读 · 0 评论 -
Apache Hadoop YARN (官网文章)
yarn的根本目标是为了分散资源管理还有任务调度以及监视功能到分离的守护进程。这个目的是拥有一个全局ResourceManager 和每个应用程序。 应用程序可以是单个作业,也可以是作业的DAG。resource manager和node manager 构成了数据计算框架。 resource manager 拥有最大的权利去决定每个应用所能拥有的系统资源。 Node Manager 是每...原创 2018-10-18 15:00:21 · 447 阅读 · 0 评论 -
hadoop官网 阅读之 MR Support for YARN Shared Cache
OverviewMapReduce 支持yarn共享缓存,允许mapreduce利用额外的资源缓存。他保存了作业提交客户端和yarn集群之间的网络带宽。这会节约reduce工作的提交时间和所有工作的运行时间。Enabling/Disabling the shared cache首先,你的yarn集群要确保开启了共享缓存服务。请查看一下YARN的关于如何设置共享缓存服务的文档。一...原创 2018-10-18 13:44:02 · 251 阅读 · 0 评论 -
MapReduce 统计手机用户的上行流量,下行流量,总流量,并对输出的结果进行倒序排序。(二),划分省份,输出到不同的文件
在(一)的基础上,写一个自己的partitioner就好了。分区的默认实现HashPartitioner,它根据key的hashcode和Interger.在Reduce过程中,可以根据实际需求(比如按某个维度进行归档,类似于数据库的分组),把Map完的数据Reduce到不同的文件中。分区的设置需要与ReduceTaskNum配合使用。比如想要得到5个分区的数据结果。那么就得设置5...原创 2018-10-17 18:57:24 · 1251 阅读 · 0 评论 -
MapReduce 统计手机用户的上行流量,下行流量,总流量,并对输出的结果进行倒序排序。(一)
首先,要知道hadoop自带的LongWritable 是没办法存储三个变量,即用户的上行流量,下行流量,总流量。这个时候,没办法,你就要去写一个属于你自己的接口,去实现能够放入这三个数据。MapReduce中传输自定义数据类型(Bean->setter+getter)(1) 要在Hadoop的各个节点之间传输,就必须实现其序列化机制,实现 Writable接口 ,重写两...原创 2018-10-17 16:06:42 · 2549 阅读 · 2 评论 -
windows10下 eclipse连接虚拟机中的Hadoop伪分布式集群
在windows用eclipse连接hadoop之后,可以便于进行mapreduce开发,非常方便,如果在虚拟机里面用eclipse的话 ,emmmmmm,你会卡到怀疑人生。首先需要去下载eclipse,这个直接官网就ok link:https://www.eclipse.org/downloads/还需要下载eclipse连接hadoop的插件 hadoop-...原创 2018-08-21 13:13:53 · 2808 阅读 · 0 评论 -
hadoop集群启动后,发现所有进程都在,唯独没有master节点的namenode进程
这个时候,去logs/目录下查看日志cat hadoop-had_user-namenode-master.log得到结果:java.io.IOException: There appears to be a gap in the edit log. We expected txid 1, but got txid 18查了一下,说是namenode元数据损坏然后就stop-...原创 2018-08-12 11:11:52 · 5102 阅读 · 2 评论 -
Flume.apache.org 官方文档学习笔记 part six
NetCat TCP source netcat-like源 会监听一个给出的端口,并且将文本的每一行转化成一个事件。 命令就像 nc -k -l [host] [port] 换句话说, 它打开了一个特定的端口并且监听数据。 期望提供的数据是换行符分割文本。 每行文本都会转换成flume事件,并通过连接的通道发送。NetCat UDP Source 就像每一个原始的...原创 2018-11-03 11:33:35 · 206 阅读 · 0 评论