-九天--优快云博客

转载 Flink流计算编程--watermark（水位线）简介

本文转自Flink流计算编程–watermark（水位线）简介 1、watermark的概念watermark是一种衡量Event ...

2020-03-23 19:00:49 804

原创 linux系统nmon监控简单使用

注意当crontab执行脚本中包含的命令需要使用到环境变量时，例如：jps等，这种情况喜爱的crontabu 不会加载PATH全部路径，导致在执行定时任务时会出现问题。此时的解决方案时在该执行脚本中加入jps所在的环境变量，例如：$ which jps/home/dtc/java/bin那么就需要在执行脚本中加入；export PATH=/etc:/bin:/sbin:/usr/bi...

2019-05-23 13:28:33 1355

原创 hadoop生态组件安装

本文是在自己工作中用到各个组件的安装方式的记录，包括：hadoop,hbase,kafka,es,hive,flume,druid，flink，spark等，在持续更新中。具体的使用记录另有博文具体介绍。hdfs这里是列表文本Hadoop有三种分布模式：单机模式、伪分布、全分布模式，本文讲解分布式搭建方式。假设有a,b,c三个节点。第一步：新建用户# 增加用户，并赋予其密码$ ad...

2019-05-22 09:04:41 1149 1

原创 hdfs使用操作命令

-cat使用方法：hadoop fs -cat URI [URI …]将路径指定文件的内容输出到stdout实例：hadoop fs -cat file:///file3 /user/hadoop/file4-chgrp使用方法：hadoop fs -chgrp [-R] GROUP URI [URI …]改变文件所属的组。使用-R将使改变在目录结构下递归进行。命令的使...

2019-05-22 08:59:51 337

研究flume有一段时间了，不过在对其源码进行修改时，每次都是将修改的代码上传到服务器，然后重启，特别麻烦及浪费时间。前段时间组长告诉我可以远程调试flume源码，这样无论对于阅读源码或是开发都是十分方便的，当时上网上找了一下教程，感觉很简单，也调通了，不过后面也没用。最近需要研读源码了，感觉特别的吃力，才想到可以利用debug模式去看。所以，就将配置过程及踩的坑记录一下。首先下载flume源...

2019-05-22 08:58:59 637

原创 Git操作

Git基础操作/Svn基本操作查看远程分支：git branch -a 查看本地分支：git branch创建分支：git branch <name>把分支推到远程分支：git push origin <name>切换分支:git checkout <name>删除本地分支 git branch -d xxxxx注释：新分支建好后，需...

2019-05-22 08:58:00 214

原创 FileChannel之event写入磁盘

前言：Channel是介于Source与Sink的中重要一环，如果没有channel数据就不能传输同时channel的存在也使得source与sink的耦合性降到了最低。另外，对于大多数数据分析来说，日志丢失是不可忍受的，所以，现在线上使用最多的Channel，就是FileChannel。在flume中事务是一个重要的概念，事务保证了数据的可用性。这里的事务有别于数据库中的事务，比如在批量...

2019-05-22 08:56:44 767

原创 Elasticsearch安装、使用及kibana的安装、使用

简介开始学es，总结出现的问题和解决方法。本文是在三个节点上进行安装。条件允许的话，可以在多台机器上配置es节点，如果你机器性能有限，那么可以在一台虚拟机上完成多节点的配置。三个节点如下:A,B,C几个基本名词index（索引）: es里的index相当于一个数据库。type（类型）: 相当于数据库里的一个表。document（文档）相当于mysql中的一行（一条记录）fie...

2019-05-22 08:55:01 628

原创 AVRO格式学习总结

1. 介绍Avro 是 Hadoop 中的一个子项目，也是 Apache 中一个独立的项目，Avro 是一个基于二进制数据传输高性能的中间件。在 Hadoop 的其他项目中，例如 HBase 和 Hive 的 Client 端与服务端的数据传输也采用了这个工具。Avro 是一个数据序列化的系统，它可以提供：1、丰富的数据结构类型 2、快速可压缩的二进制数据形式 ...

2019-05-22 08:54:08 12842

原创 logstash安装及简单测试

背景业务目的是能够分析nginx和apache每天产生的日志，对url、ip、rest接口等信息进行监控，并将数据发送到elasticsearch服务。对比flume不重复消费，数据不丢失目前flume支持hdfs比较好（个人理解）离线安装先配置JAVA_HOME 必须java8以上下载解压即可标准输入输出bin/logstash -e 'input { stdin {} ...

2019-05-22 08:52:33 1122

原创 flume -- fileChannel简要分析其过程

flume之event写入FileChanneldoPut(event)-->获取共享锁后[log.lockShared();]-->FlumeEventPointer ptr = log.put(transactionID, event);此处的log.put即将transactionID及event进行后续操作，如下代码所示：FlumeEventPointer put(l...

2019-05-22 08:51:41 2185

原创 Hadoop源码编译过程

前言由于工作的需要，需要对hadoop源码进行修改，所以需要先对源码进行编译。此处主要在两类环境下编译：linux7.0mac系统hadoop源码编译linux环境环境说明：1、Linux系统为centos7.03、Hadoop为hadoop-2.8.4-src.tar.gz4、JDK为1.8.0_2015、Maven为3.6.16、cmake7、protobuf...

2019-05-21 23:34:12 2526

原创 tensorflow学习函数笔记

[TensorFlow教程资源](https://my.oschina.net/u/3787228/blog/1794868](https://my.oschina.net/u/3787228/blog/1794868 “TensorFlow教程资源”)教程资源2深度学习入门笔记系列 ( 八 ) ——基于 tensorflow 的手写数字的识别（进阶）函数一tf.nn.conv2d(inp...

2019-05-21 23:33:20 189

原创 hbase使用记录

hbase数据存储格式 HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable：一个结构化数据的分布式存储系统》。HBase是Google Bigtable的开源实现，它利用Hadoop HDFS作为其文件存储系统，利用Hadoop MapReduce来处理HBase中的海量数据，利用Zookeeper作为协同服务。 HBase以表的形式存储数据。表有...

2019-05-21 23:31:37 305

原创 mapreducer工作流程

hadoop mapreduce中对split的处理分片:1. 在job.waitForCompletion(true)后使用job.submit() 提交job，之后调用 submitter.submitJobInternal(Job.this, cluster); 2. 在submitJobInternal()函数中会给job创建分片 int maps = writeSplits(j...

2019-05-21 23:30:36 494

原创 Flink

flink HA部署flink搭建，采用分布式部署方式，分别为A,B,C三个节点。其中A为master;A,B,C为worker。本文使用的用户是hadoop用户（自己新建）先决条件Java 1.8.x or higherscala 自己使用的是2.11.4节点之间做ssh免密搭建hadoop集群及启动hdfs及yarn（2.8.4）zk集群是在搭建hadoop集群时已经搭建...

2019-05-21 23:29:16 239

原创 flume启动源码分析

flume启动代码分析记录具体结合如下配置文件进行讲解，配置文件如下所示：agent1.sources=source1agent1.channels=channel1agent1.sinks=sink1agent1.sources.source1.type = TAILDIRagent1.sources.source1.channels = channel1agent1.sourc...

2019-05-21 23:28:17 648

原创 maven实用技巧篇

maven实用技巧篇多线程及跳过测试# 用 4 个线程构建，以及根据 CPU 核数每个核分配 1 个线程进行构建$ mvn -T 4 clean install$ mvn -T 1C clean install-DskipTests # 不执行测试用例，但编译测试用例类生成相应的 class 文件至 target/test-classes 下-Dma...

2019-05-21 23:26:52 433

原创 Grafana配置es数据源问题

最近在使用Grafana对Elasticsearch的数据进行展示问题。下面我将在Grafana中使用Elasticsearch作为数据源绘制网络的IO图以及disk的IO图系统为：centos7.x ，ip为：A安装grafana$ yum install https://s3-us-west-2.amazonaws.com/grafana-releases/release/grafa...

2019-05-21 23:25:25 11929 2

原创 flume-taildir/glob语法/路径迭代

flume-taildir/glob语法/路径迭代最近在使用flume的taildir做多文件监控，发现配置路径的增则表达式不起作用，跟踪源码发现：TaildirMatcher(String fileGroup, String filePattern, boolean cachePatternMatching) { // store whatever came from configu...

2019-05-21 23:23:42 672

原创决策树的熵问题

决策树算法：简介决策树是一种十分常用的监督学习的分类算法。所谓监管学习，就是给定一堆样本，每个样本都有一组属性和一个类别，这些类别是事先确定的，那么通过学习得到一个分类器，这个分类器能够对新出现的对象给出正确的分类。这样的机器学习就被称之为监督学习。算法分类决策树算法目前主要有以下三种：ID3/C4.5/CARTID3算法使用的是信息熵增益C4.5算法使用的是信息熵增益率CART算...

2019-05-21 23:15:52 6400 4

原创 # softmax函数应用

# softmax函数应用## 1.softmax初探在机器学习中，softmax是十分常用而且重要的一个函数，尤其在多分类的场景中使用广泛。它把一些输入映射为0-1之间的实数，并且归一化保证和为1，因此多分类的概率之和也刚好为1。首先我们简单来看看softmax是什么意思。顾名思义，softmax由两个单词组成，其中一个是max。比如有两个变量a,b，即哪个大取哪...

2019-05-05 10:32:53 1024

原创算法总结

题目一：给定一个二维数组，判断其中是否存在某个数；例如：给定数组{{1,2,8,9},{2,4,9,12},{4,7,10,13},{6,8,11,15}}，判断7是否存在于数组中解法一：两层for循环，时间复杂度为；解法二：该方法的时间复杂度最大为,最小为public boolean find(int[][] matrix,int rows,int columns,int nu...

2019-03-01 14:22:01 136

九天的博客