
bigdata
文章平均质量分 82
nebofeng
不坠青云之志。。
展开
-
Kerberos简单介绍及使用
Kerberos 下的用户可以称为 Principal,当每添加一个用户或服务的时候都需要向kdc添加一条principal, principal的形式为:主名称/实例名@领域名。第一部分是service的名字,比如imap, AFS, ftp. 通常’host’这个名字被用于指明对一台机器的通用的访问(telnent, rsh, ssh)。简单来说安全相关一般涉及以下方面:用户认证(Kerberos的作用)、用户授权、用户管理.。其中Instance是可选 的,通常用于更好地限定用户的类型。原创 2023-02-12 19:28:00 · 2201 阅读 · 0 评论 -
TPCDS-Hive-testbench运行报错status-139的解决方法
前阵子在用Tpcds对hive做性能测试的时候,遇到过报错 Process failed with status code 139## 问题剖析通过源码查看,找到了最终异常抛出的地方: hive-testbench-hdp3/tpcds-gen/src/main/java/org/notmysock/tpcds/GenTable.java原创 2022-12-08 21:01:34 · 947 阅读 · 0 评论 -
mr从hdfs读取数据处理之后写入到Hbase
需求:使用mr从hdfs读取数据处理之后写入到Hbasepackage pers.nebo.mrtohbase;/**@ author fnb@ email nebofeng@gmail.com@ date 2019/12/17@ des :/import java.io.IOException;import org.apache.commons.lang.StringUtils;import org.apache.hadoop.conf.Configuration;import原创 2021-01-13 01:20:41 · 799 阅读 · 0 评论 -
Kafka获取最新offset
需求: 获取kafka 最新的offset方法: 获取kafka每个分区的offsetmethod1 使用consumer.seektoend()method2 使用consumer.endOffsets()版本 <dependency> <groupId>org.apache.kafka</groupId> ...原创 2020-01-02 23:08:27 · 2439 阅读 · 0 评论 -
Accumulator-累加器的简单使用及注意事项
累加器用于在executors中做变量更改。官方文档: 官方文档地址基于spark 2.3.3版本编写的示例demo :package pers.nebo.sparkcoreimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.SparkSessionimport org.apache.spark.util.LongAcc...原创 2019-12-29 17:30:14 · 1528 阅读 · 0 评论 -
Spark学习:求网址的top3访问地区及网站pv、uv
思路: 生成用户不同时间访问不同网站的数据,计算出pv 、uvpv 页面访一次加1 ,uv 不同用户访问 加1//ip val IP = 223 //地址 val ADDRESS = Array("北京", "天津", "上海", "重庆", "河北", "辽宁","山西", "吉林", "江苏", "浙江", "黑龙江", "安徽", "福建", "江西", "...原创 2019-11-26 23:30:40 · 1146 阅读 · 0 评论 -
Scala:基础知识介绍
最近复习了一下Scala 语法,看的课程 https://www.bjsxt.com/dashujushipin.html这里分享一下下面是练习的代码。有困惑的地方也加了自己的理解。原创 2019-11-22 22:59:54 · 221 阅读 · 0 评论 -
python调用ambari rest api 获取、更改集群中节点的服务状态
需求: 想用python 调用ambair的rest api,来获取集群中节点服务的状态,根据需求更改组件状态主要参考: https://github.com/apache/ambari/blob/trunk/ambari-server/docs/api/v1/具体参数的获取,以启动某主机上的某个服务为例(这只是我的方法,如果有更好的方法,欢迎留言):'''请求体参数获取方法:我这里是直...原创 2019-11-15 13:12:39 · 1212 阅读 · 0 评论 -
MR 案例分析: 求每个月温度最高的两天
最近看到一个mr的例子,感觉有些收获这里分享一下需求: 求每个月温度最高的两天,日期格式为:1949-10-01 14:21:02 34c思路一: mr job 将key 封装为 year-month的格式 传递给 reduce, reduce 中遍历每个key 的值,取出温度,进行比较。 遍历完成之后输出 思路二: 利用key的排序, 实现自定义分组 。根据 ,yea...原创 2019-10-28 23:44:22 · 732 阅读 · 0 评论 -
GangLia搭建使用
需求: 采集多个节点中的负载情况,多个节点划分为多个集群监控ganglia的简单角色划分 ganglia-web : web展示 ganglia-gmetad 数据收集处理 ganglib-gmond 数据采集发送这里不再详细介绍:查看文末的...原创 2019-09-30 15:06:37 · 520 阅读 · 0 评论 -
Canal安装配置与Client监听Msql数据变更
求: 使用Canal将Mysql的变更数据实时同步到大数据平台(hdfs/hive/hbase)环境:jdkmysqlzookeepr(没有配置Ha的情况下不必配置,这里暂时未配置)环境配置比较简单,这里略过。 Canal配置 下载安装包 wget https://github.com/alibaba/canal/releases/download/canal-1.0.22/canal....原创 2018-08-03 19:53:27 · 2371 阅读 · 6 评论 -
Otter实现Msql主从同步
需求:实现主机a(hadoop2)的mysql数据同步到主机b(hadoop4)的mysq中。参考文档:https://github.com/alibaba/canal https://github.com/alibaba/otter/wiki/QuickStart https://segmentfault.com/a/1190000010772134#articleHeader0配置...原创 2018-07-29 19:41:23 · 1486 阅读 · 1 评论 -
MapReduce执行流程的一点总结
首先,通过任务的控制台log,可以看到,首先任务在执行的时候,先连接集群的resourceManager。 然后计算出split的个数 下一步才提交任务 而在mr任务提交之后 。InputFormat 接口决定了输入文件如何被 Hadoop 分块(split up)与接受。 InputFormat 能够从一个 job 中得到一个 split 集合(InputSplit[])(原创 2018-01-25 20:03:42 · 1410 阅读 · 0 评论 -
hadoop集群搭建三: hbase分布式集群搭建
需求:在三台主机上搭建hbase分布式集群 版本: hbase-0.98.11-hadoop2 环境jdk1.8 主要角色txynebo1 master, zookeeper, regionservertxynebo2 master, zookeeper ,regionservertxynebo3 zookeeper ,regionse...原创 2018-03-25 13:32:56 · 749 阅读 · 0 评论 -
根据源码查看mapreduce作业分块逻辑
1.首先我们知道inputformat接口有两个方法 (旧版api 放置在 org.apache.hadoop.mapred 新版 api放置在 org.apache.hadoop.mapreduce)第一个getSplits是获取分块的方法 第二个createRdcordReader是获取RecordReader 查看第一个方法 : 2.查看其子类FileInputformat...原创 2018-03-14 12:36:21 · 452 阅读 · 0 评论 -
hadoop集群搭建二: hadoop+zookeeper 配置namenode与resourcemanager的高可用
需求: 配置由zookeeper实现的hdfs namenode的高可用 ,以及resourcemanager高可用 。centos7.3 jdk1.8(默认已经安装好) hadoop 2.6.0 zookeeper 3.4.6ssh免密登陆已经配置好。 时钟同步已经完成 防火墙已经关闭。 主要角色分配 txynebo1:namenode ,resourcemanage...原创 2018-03-23 15:52:46 · 1891 阅读 · 0 评论 -
flume+kafka实现根据消息的标识分配到不同的分区
需求在使用flume 收集 log的时候根据 不同的 消息表示可能是uid。或者是日期。等关键字段 。 将消息发送到 kafka不同的分区 这里就不再贴详细代码 主要讲一下自己的思路 。思路一: 自定义在flume拦截器中 使用 kafka producer 。直接将关键信息 获取之后。根据逻辑。发送到不同的分区 。 主要实现如图: 配置文件修改: flume-co...原创 2018-03-19 16:48:48 · 5075 阅读 · 0 评论 -
hadoop集群搭建一: 集群 配置ssh免密码登陆
需求 : 主机 txynebo1 , txynebo2 , txynebo3 配置ssh免密码登陆 。 1 .首先更改hosts文件 将三个主机的ip与hostname对应(这边是三个云服务器。所以将对应的公网ip与 hostname对应 ,这里十分抱歉,hostname是不能加下划线 _ 的。不然后面...原创 2018-03-22 19:26:50 · 1054 阅读 · 0 评论 -
centos6.5 中 git+maven 编译 spark过程
centos6.5中使用git+maven编译spark踩到了很多坑,最后成功编译。所以发篇文章记录一下,希望能给后面遇到相同问题的人一些帮助。 首先要安装 maven 3.3 +,如果没有安装可以百度一下具体步骤。1. 首先是从github中clone spark源码 报错如下: 使用git clone 源码报错 : git clone [root@nebo1 o...原创 2018-03-07 16:42:38 · 402 阅读 · 0 评论