
bigdata
徐川江的个人博客
这个作者很懒,什么都没留下…
展开
-
Hadoop安装之standAlone单机
hadoop安装1.x和2.x有三种安装架构,本文将介绍第一种安装模式standAlone一:standAlone(单机)standAlone安装将所有服务都安装在一台机器上,如下: 运行服务 服务器IP NameNode 192.168.254.100 SecondaryNameNode ...原创 2018-11-15 15:18:45 · 1217 阅读 · 0 评论 -
flume集成kafka完整案例
flume集成kafka官网案例:http://flume.apache.org/FlumeUserGuide.html#kafka-sink一:flume集成kafka配置文件a1.sources = r1a1.channels = c1a1.sinks = k1 a1.sources.r1.type = exec#tail -F 根据文件名进行追踪a1.s...原创 2018-11-28 15:20:45 · 1038 阅读 · 1 评论 -
java.lang.NoClassDefFoundError: org/apache/storm/topology/IRichSpout
运行storm就报一个错:java.lang.NoClassDefFoundError: org/apache/storm/topology/IRichSpout找不到Spout,明明是引入了storm-core的pom信息仔细检查发现,在引入pom信息中指定了scop域为provided,但代码中运行storm是本地模式,所以运行时找不到strom相关的jar去掉scope就...原创 2018-11-28 10:29:45 · 2315 阅读 · 0 评论 -
Hadoop安装之高可用搭建
通过前面两篇文章的搭建,可以发现搭建的NameNode只有一台,没有进行备份机,如果NameNode宕机了,那整个集群也就废了,所以我们需要在另外的机器上再搭建一个NameNode节点,且使用JournalNode来保证两台NameNode中的元数据保持一致,并且还需要通过zookeeper的zkFailoverController守护进程来监控NameNode的健康状况,一旦其中active的N...原创 2018-11-17 15:42:24 · 654 阅读 · 2 评论 -
Hadoop安装之伪分布式搭建
本文介绍apache hadoop的第二种搭建模式:伪分布式。关于伪分布式的搭建基于上篇《Hadoop安装之standAlone单机》文章中standAlone搭建的基础之上进行扩建。安装服务器规划 服务器IP 192.168.254.100 192.168.254.110 192.168.254.120 ...原创 2018-11-17 14:07:47 · 450 阅读 · 0 评论 -
sqoop连接mysql提示Your password has expired
使用sqoop连接mysql5.7出现错误:Your password has expired. To log in you must change it using a client that supports expired passwords意思大致是说密码过期,进入Mysql通过命令:select password_expired,User from User查看密码是...原创 2018-11-20 19:43:58 · 558 阅读 · 1 评论 -
azkaban执行各种job任务
一:Azkaban执行各种job任务所有的job文件打成zip的压缩包,注意:不能是rar压缩所有job文件可以通过Noteped++编辑该文件,注意设置Job文件的格式编码1)azkaban的job操作普通linux语句type=commandcommand=echo 'hello world'2)azkaban的job操作shell脚本及脚本参数传递typ...原创 2018-11-20 19:53:37 · 6919 阅读 · 2 评论 -
YARN的调度器
一:yarn的组成yarn主要就是为了调度资源,管理任务等。ResourceManager:yarn上主节点,接收客户端提交的任务,对资源进行分配NodeManager:yarn上从节点,主要进行任务计算ApplicationMaster:ResourceManager接收到任务,会在某个NodeManager上启动一个ApplicationMaster进程,负责任务执行的资源分配...原创 2018-11-19 08:53:23 · 673 阅读 · 1 评论 -
MapReduce设置snappy压缩方式
一:MapReduce的压缩hadoop压缩能够减少map阶段从环形缓冲区生成小文件进行压缩,以及reductTask读取map阶段的文件采用压缩,可以有效的节约磁盘空间以及加速数据在网络上的传输。查看当前安装的hadoop支持的压缩方式:bin/hadoop checknative二:设置snappy压缩方式注意:默认下载的CHD版本的hadoop不支持snappy压缩,...原创 2018-11-18 23:43:24 · 1924 阅读 · 1 评论 -
MapReduce缓存方式实现LEFT JOIN
1.通过缓存实现map端的left join缓存文件pdts.txt内容:orders.txt文件内容1.1)在驱动程序中增加指定文件缓存:import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf.Configured;import org.apache.hadoop.file...原创 2018-11-18 23:37:47 · 594 阅读 · 0 评论 -
MapReduce在Reduce中实现LEFT JOIN
本文以订单和商品演示如何实现left join。一:准备数据订单数据表t_order: id date pid amount 1001 20150710 P0001 2 1002 2015...原创 2018-11-18 23:32:21 · 1296 阅读 · 0 评论 -
MapReduce实现分组求TopN
本文以订单案例为例,演示如何进行分组,以及求取每组的前两条数据。一:案例需求有如下订单数据 订单id 商品id 成交金额 Order_0000001 Pdt_01 222.8 Order_0000001 Pdt_05 ...原创 2018-11-18 23:24:06 · 1932 阅读 · 3 评论 -
MapReduce处理小文件合并
一:小文件合并几种方式:1、 在数据采集的时候,客户端就将小文件或小批数据合成大文件再上传HDFS2、 在业务处理之前,在HDFS上使用mapreduce程序对小文件进行合并3、 在mapreduce处理时,可采用combineInputFormat提高效率二:自定义InputFormat合并小文件通过自定义实现FileInputFormat,设置读取小文件时不进行切片,且使用...原创 2018-11-18 23:01:05 · 3408 阅读 · 0 评论 -
MapReduce的分区
一:分区Partitioner在MapReduce中,通过指定分区,mapTask会将同一个分区的数据发送到同一个reduce当中进行处理。也就是把相同类型的数据,发送到同一个reductTask去处理。注意:分区需要在yarn集群上运行,不能本地测试。二:代码实现自定义分区类,注意分区实现阶段在map阶段,也就是分区时的key为k2,v2阶段import org.ap...原创 2018-11-18 22:54:39 · 881 阅读 · 0 评论 -
MapReduce的规约
一:什么是规约map阶段读取文件,生成k2,v2,通过combiner规约可以在map阶段将k2进行合并,v2生成集合,从而减小了生成的文件大小,减少了reduct读取map阶段的文件时的网络传输。也就是说本该在reduct阶段进行相同key合并,value行程集合的过程在map阶段通过规约提前实现了。combiner 是 MR 程序中 Mapper 和 Reducer 之外的一种组件...原创 2018-11-18 22:50:57 · 1393 阅读 · 0 评论 -
MapReduce中的排序和计数器
一:条件准备准备sort.txt文本a 1a 9b 3a 7b 8b 10a 5a 9排序后输出的文本:a 1a 5a 7a 9a 9b 3b 8b 10二:排序接口WritableComparable思路:将文本内容转为一个sortBean,将此bean作为k2,使用NullWritable作为v2sortBea...原创 2018-11-18 22:46:07 · 411 阅读 · 0 评论 -
Spark整合Hive报错:Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient
报错截图:整合Hive过程:hive版本:hive-1.1.0-cdh5.14.0 spark版本:spark-2.0.2-bin-hadoop2.7将hive的conf目录下的hive-site.xml配置文件拷贝到spark的conf目录下。hive的元数据存储在远端的mysql上,所以需要将mysql-connector-java-5.1....原创 2018-12-15 13:42:12 · 5327 阅读 · 0 评论