自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

九天的博客

博客仅作为个人使用过程中的记录。

  • 博客(23)
  • 收藏
  • 关注

转载 Flink流计算编程--watermark(水位线)简介

本文转自Flink流计算编程–watermark(水位线)简介 1、watermark的概念watermark是一种衡量Event ...

2020-03-23 19:00:49 804

原创 linux系统nmon监控简单使用

注意当crontab执行脚本中包含的命令需要使用到环境变量时,例如:jps等,这种情况喜爱的crontabu 不会加载PATH全部路径,导致在执行定时任务时会出现问题。此时的解决方案时在该执行脚本中加入jps所在的环境变量,例如:$ which jps/home/dtc/java/bin那么就需要在执行脚本中加入;export PATH=/etc:/bin:/sbin:/usr/bi...

2019-05-23 13:28:33 1355

原创 hadoop生态组件安装

本文是在自己工作中用到各个组件的安装方式的记录,包括:hadoop,hbase,kafka,es,hive,flume,druid,flink,spark等,在持续更新中。具体的使用记录另有博文具体介绍。hdfs这里是列表文本Hadoop有三种分布模式:单机模式、伪分布、全分布模式,本文讲解分布式搭建方式。假设有a,b,c三个节点。第一步:新建用户# 增加用户,并赋予其密码$ ad...

2019-05-22 09:04:41 1149 1

原创 hdfs使用操作命令

-cat使用方法:hadoop fs -cat URI [URI …]将路径指定文件的内容输出到stdout实例:hadoop fs -cat file:///file3 /user/hadoop/file4-chgrp使用方法:hadoop fs -chgrp [-R] GROUP URI [URI …]改变文件所属的组。使用-R将使改变在目录结构下递归进行。命令的使...

2019-05-22 08:59:51 337

原创 flume远程调试

研究flume有一段时间了,不过在对其源码进行修改时,每次都是将修改的代码上传到服务器,然后重启,特别麻烦及浪费时间。前段时间组长告诉我可以远程调试flume源码,这样无论对于阅读源码或是开发都是十分方便的,当时上网上找了一下教程,感觉很简单,也调通了,不过后面也没用。最近需要研读源码了,感觉特别的吃力,才想到可以利用debug模式去看。所以,就将配置过程及踩的坑记录一下。首先下载flume源...

2019-05-22 08:58:59 637

原创 Git操作

Git基础操作/Svn基本操作查看远程分支:git branch -a 查看本地分支:git branch创建分支:git branch <name>把分支推到远程分支 :git push origin <name>切换分支:git checkout <name>删除本地分支 git branch -d xxxxx注释:新分支建好后,需...

2019-05-22 08:58:00 214

原创 FileChannel之event写入磁盘

前言:Channel是介于Source与Sink的中重要一环,如果没有channel数据就不能传输同时channel的存在也使得source与sink的耦合性降到了最低。另外,对于大多数数据分析来说,日志丢失是不可忍受的,所以,现在线上使用最多的Channel,就是FileChannel。在flume中事务是一个重要的概念,事务保证了数据的可用性。这里的事务有别于数据库中的事务,比如在批量...

2019-05-22 08:56:44 767

原创 Elasticsearch安装、使用及kibana的安装、使用

简介开始学es,总结出现的问题和解决方法。本文是在三个节点上进行安装。条件允许的话,可以在多台机器上配置es节点,如果你机器性能有限,那么可以在一台虚拟机上完成多节点的配置。三个节点如下:A,B,C几个基本名词index(索引): es里的index相当于一个数据库。type(类型): 相当于数据库里的一个表。document(文档)相当于mysql中的一行(一条记录)fie...

2019-05-22 08:55:01 628

原创 AVRO格式学习总结

1. 介绍Avro 是 Hadoop 中的一个子项目,也是 Apache 中一个独立的项目,Avro 是一个基于二进制数据传输高性能的中间件。在 Hadoop 的其他项目中,例如 HBase 和 Hive 的 Client 端与服务端的数据传输也采用了这个工具。Avro 是一个数据序列化的系统,它可以提供:1、丰富的数据结构类型 2、快速可压缩的二进制数据形式 ...

2019-05-22 08:54:08 12842

原创 logstash安装及简单测试

背景业务目的是能够分析nginx和apache每天产生的日志,对url、ip、rest接口等信息进行监控,并将数据发送到elasticsearch服务。对比flume不重复消费,数据不丢失目前flume支持hdfs比较好(个人理解)离线安装先配置JAVA_HOME 必须java8以上下载解压即可标准输入输出bin/logstash -e 'input { stdin {} ...

2019-05-22 08:52:33 1122

原创 flume -- fileChannel简要分析其过程

flume之event写入FileChanneldoPut(event)-->获取共享锁后[log.lockShared();]-->FlumeEventPointer ptr = log.put(transactionID, event);此处的log.put即将transactionID及event进行后续操作,如下代码所示:FlumeEventPointer put(l...

2019-05-22 08:51:41 2185

原创 Hadoop源码编译过程

前言由于工作的需要,需要对hadoop源码进行修改,所以需要先对源码进行编译。此处主要在两类环境下编译:linux7.0mac系统hadoop源码编译linux环境环境说明:1、Linux系统为centos7.03、Hadoop为hadoop-2.8.4-src.tar.gz4、JDK为1.8.0_2015、Maven为3.6.16、cmake7、protobuf...

2019-05-21 23:34:12 2526

原创 tensorflow学习函数笔记

[TensorFlow教程资源](https://my.oschina.net/u/3787228/blog/1794868](https://my.oschina.net/u/3787228/blog/1794868 “TensorFlow教程资源”)教程资源2深度学习入门笔记系列 ( 八 ) ——基于 tensorflow 的手写数字的识别(进阶)函数一tf.nn.conv2d(inp...

2019-05-21 23:33:20 189

原创 hbase使用记录

hbase数据存储格式​ HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable:一个结构化数据的分布式存储系统》。HBase是Google Bigtable的开源实现,它利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为协同服务。​ HBase以表的形式存储数据。表有...

2019-05-21 23:31:37 305

原创 mapreducer工作流程

hadoop mapreduce中对split的处理分片:1. 在job.waitForCompletion(true)后使用job.submit() 提交job,之后调用 submitter.submitJobInternal(Job.this, cluster); 2. 在submitJobInternal()函数中 会给job创建分片 int maps = writeSplits(j...

2019-05-21 23:30:36 494

原创 Flink

flink HA部署flink搭建,采用分布式部署方式,分别为A,B,C三个节点。其中A为master;A,B,C为worker。本文使用的用户是hadoop用户(自己新建)先决条件Java 1.8.x or higherscala 自己使用的是2.11.4节点之间做ssh免密搭建hadoop集群及启动hdfs及yarn(2.8.4)zk集群是在搭建hadoop集群时已经搭建...

2019-05-21 23:29:16 239

原创 flume启动源码分析

flume启动代码分析记录具体结合如下配置文件进行讲解,配置文件如下所示:agent1.sources=source1agent1.channels=channel1agent1.sinks=sink1agent1.sources.source1.type = TAILDIRagent1.sources.source1.channels = channel1agent1.sourc...

2019-05-21 23:28:17 648

原创 maven实用技巧篇

maven实用技巧篇多线程及跳过测试# 用 4 个线程构建,以及根据 CPU 核数每个核分配 1 个线程进行构建$ mvn -T 4 clean install$ mvn -T 1C clean install-DskipTests # 不执行测试用例,但编译测试用例类生成相应的 class 文件至 target/test-classes 下-Dma...

2019-05-21 23:26:52 433

原创 Grafana配置es数据源问题

最近在使用Grafana对Elasticsearch的数据进行展示问题。下面我将在Grafana中使用Elasticsearch作为数据源绘制网络的IO图以及disk的IO图系统为:centos7.x ,ip为:A安装grafana$ yum install https://s3-us-west-2.amazonaws.com/grafana-releases/release/grafa...

2019-05-21 23:25:25 11929 2

原创 flume-taildir/glob语法/路径迭代

flume-taildir/glob语法/路径迭代最近在使用flume的taildir做多文件监控,发现配置路径的增则表达式不起作用,跟踪源码发现:TaildirMatcher(String fileGroup, String filePattern, boolean cachePatternMatching) { // store whatever came from configu...

2019-05-21 23:23:42 672

原创 决策树的熵问题

决策树算法:简介决策树是一种十分常用的监督学习的分类算法。所谓监管学习,就是给定一堆样本,每个样本都有一组属性和一个类别,这些类别是事先确定的,那么通过学习得到一个分类器,这个分类器能够对新出现的对象给出正确的分类。这样的机器学习就被称之为监督学习。算法分类决策树算法目前主要有以下三种:ID3/C4.5/CARTID3算法使用的是信息熵增益C4.5算法使用的是信息熵增益率CART算...

2019-05-21 23:15:52 6400 4

原创 # softmax函数应用

# softmax函数应用## 1.softmax初探​ 在机器学习中,softmax是十分常用而且重要的一个函数,尤其在多分类的场景中使用广泛。它把一些输入映射为0-1之间的实数,并且归一化保证和为1,因此多分类的概率之和也刚好为1。​ 首先我们简单来看看softmax是什么意思。顾名思义,softmax由两个单词组成,其中一个是max。比如有两个变量a,b,即哪个大取哪...

2019-05-05 10:32:53 1024

原创 算法总结

题目一:给定一个二维数组,判断其中是否存在某个数;例如:给定数组{{1,2,8,9},{2,4,9,12},{4,7,10,13},{6,8,11,15}},判断7是否存在于数组中解法一:两层for循环,时间复杂度为;解法二:该方法的时间复杂度最大为,最小为public boolean find(int[][] matrix,int rows,int columns,int nu...

2019-03-01 14:22:01 136

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除