- 博客(36)
- 资源 (1)
- 收藏
- 关注

原创 精通Flink原理必读 -《Flink内核原理与实现》
《Flink内核原理与实现》既讲解了Flink的入门、安装、流计算开发入门、类型和序列化系统、监控运维、安全管理配置等基础知识,又讲解了Flink的时间概念、Window的实现原理及其代码解析,Flink的容错机制原理,Flink容错的关键设计、代码实现分析,Flink Job从源码到执行整个过程的解析,Flink Job的调度策略、资源管理策略、内存管理、数据交换的关键设计和代码实现分析,Flink的RPC通信框架等深度内容。《Flink内核原理与实现》适合对实时计算感兴趣的大数据开发、运维领域的从业
2020-09-03 14:48:29
5448
8

翻译 《基于事件流的高效模式匹配》论文中文版-Flink CEP 复杂事件处理核心基础
Flink的CEP实现重度参考了论文《Efficient Pattern Matching over Event Streams》,此文是该论文核心部分的中文版。下边是论文的正文部分事件流上的模式匹配应用领域越来越广泛,例如金融服务,基于RFID的库存管理,点击流分析和电子健康医疗等。正则表达式是模式匹配的一种应用,相比正则表达式比配,流上的匹配面临两个新的挑战:流上的模式匹配语言,必须...
2019-07-10 10:02:09
2047

翻译 Apache Arrow的内存结构
本文的目标清楚的描述Apach相对类型(原始类型和初始嵌套类型集),到达可以实现的程度 每一种相对类型的内存结构和随机访问的模式 Null值的表达最终使读者对Apache Arrow的底层有一个大致清晰的了解,如果能够从中了解到一点硬件级性能优化的概念,那么便是超出了期望。字节顺序Apache Arrow默认使用Little-Endian,在Apache Arrow的Schem...
2018-08-18 09:37:15
3497

原创 精通Apache Flink必读系列文章
Flink是最接近于谷歌Dataflow大数据分析平台的设计的开源分布式计算引擎,其核心设计理念与Spark有很大的不同。从设计出发点,Flink是一个流计算处理计算引擎,把批处理视为无限流计算的一种特例,Spark是批处理计算引擎,把流处理视为迷你批处理,因为设计上的差异,导致在对处理时延要求高的场景中,Flink更加合适。从生态上来说,二者都有SQL、机器学习、图计算等基本的组件,但是...
2018-08-17 11:38:25
11307
1

原创 Splunk 体系介绍
Splunk总体介绍Splunk是什么 Splunk是一个分析计算机系统产生的机器数据,并在广泛的场景中提供数据收集、分析、可视化分布式的数据计算平台。Splunk 是一个数据引擎。针对所有IT系统和基础设施数据, 提供数据搜索、报表和可视化展现。Splunk是软件 – 5分钟就可以下载和安装。可以运行在各种主流的操作系统平台。 Splunk做什么
2017-11-08 15:58:05
16284

原创 Apache Beam简介
Apache Beam的前世今生 Apache Beam前身是Google Dataflow SDK,DataFlow是谷歌的提供大数据计算平台。在DataFlow之前,谷歌的批处理和流处理(流计算,实时处理)使用了不同系统,流处理有MillWheel、FlumeJava等,批处理有MapRedude,不同的平台使用了不同的Api,无疑提升了开发的难度,所以DataFlow横空出世,提出了
2017-09-20 23:46:26
6787

翻译 Streaming 102批处理之外的流处理世界
Steaming 101介绍了基本的术语,有限数据(bounded)VS无限数据(unbounded),然后是批处理和流处理的区别,在介绍完术语之后,阐述了事件时间和处理时间这两个重要概念,在Steaming 102中增加了3个新的概念:Watermark、触发器、累积。最终介绍了批处理和流处理的统一模型。
2017-09-18 14:06:41
5442

翻译 Streaming 101批处理之外的流处理世界
Streaming 101批处理之外的流处理世界 本文整理谷歌Tyler Akidau写的两篇文章,对于技术人员来理解大数据计算中的一些概念非常有用。原文写于2015年,所以对有些问题的是不准确的,但是不影响文章所表达的主要宗旨。前序 流处理在大数据当中是一大难题,理由如下:对于业务来说,数据的时效性越来越重要,从批处理切换到流处理是降低延迟的好方法。
2017-09-13 09:12:00
4923
原创 Flink应用案例参考手册
本手册整理自互联网的公开资料,按照行业分门别类,方便各行业大数据、Flink从业人员参考。链接: https://pan.baidu.com/s/1qVVfqQsSTpujJqEZTi00IQ 提取码: xhv4 复制这段内容后打开百度网盘手机App,操作更方便哦--来自百度网盘超级会员v1的分享...
2020-12-17 19:35:10
318
原创 Flink应用参考案例清单
异常检测&反欺诈基于实时计算(Flink)与高斯模型构建实时异常检测系统实时欺诈检测(风控)准实时异常检测系统广告计算广告与流处理技术实践案例Flink 在有赞实时计算的实践...
2019-05-28 11:46:07
1122
原创 使用TCL语言解析MQTT协议简单示例
Tcl语言TIOBE的排名是100左右,对于很多人来说,可能根本就没听说过TCL这门语言。一些大型公司(思科、F5、Radware等硬件类的厂商,百度之类的互联网公司等)仍然在积极的使用Tcl,它可以非常快速简单的把Tcl变成它独有的Domain Specific Language,让它易读易写,在使用过程中,每家公司都加入了很多自己需要的特性,用在不同领域的Tcl也完全不一样,从某种意义上来说,...
2018-08-18 10:08:53
606
原创 Splunk常见分析场景参考2
Splunk是个平台,可以满足各种应用场景,那么到底能做什么,这是很多人的困惑,本文的目的是列举一些Splunk在实际使用中落地的场景,供大家参考。VPN接入VPN认证成功用户+来源IP清单时间、用户、源ip、登录次数VPN认证成功、失败时间序列图VPN来源IP地图分布VPN源IP访问的内部IP 来源IP、访问内部IP清单、访问内部IP统计 VPN 转换IP情况...
2018-08-16 10:42:53
1368
原创 Splunk常见分析场景参考1
Splunk是个平台,可以满足各种应用场景,那么到底能做什么,这是很多人的困惑,本文的目的是列举一些Splunk在实际使用中落地的场景,供大家参考。交易交易量统计交易量趋势交易金额趋势交易平均耗时 交易平均耗时趋势交易成功率、失败率统计上网行为员工使用设备占比员工访问网站Top N员工上传下载数据量员工搜索词排行榜员工持有...
2018-08-16 10:37:37
3934
转载 构建大数据平台的正确姿势
面对海量的各种来源的数据,如何对这些零散的数据进行有效的分析,得到有价值的信息一直是大数据领域研究的热点问题。大数据分析处理平台就是整合当前主流的各种具有不同侧重点的大数据处理分析框架和工具,实现对数据的挖掘和分析,一个大数据分析平台涉及到的组件众多,如何将其有机地结合起来,完成海量数据的挖掘是一项复杂的工作。在搭建大数据分析平台之前,要先明确业务需求场景以及用户的需求,通过大数据分析平台,想...
2018-08-06 17:03:09
586
原创 Apache Nifi vs StreamSets简单比较
前言 随着数据量的爆炸,数据来源越来越多,例如文件、数据库、Hadoop分布式文件系统, web服务接口, MQTT, RabbitMQ, Kafka, 甚至TCP、UDP端口都可以作为数据来源。 当用户的ETL需求比较复杂时,使用可视化Dataflow处理工具能降低使用门槛,提高效率。有两个开源的Dataflow数据处理工具,可以帮助完成复杂ETL的工作:Apac...
2018-08-03 17:19:34
16583
原创 Splunk中使用OneClassSVM对日志进行异常侦测
适用场景本文中所使用的OneClassSVM方法识别日志中的异常,所依赖的假设前提条件如下:1、 异常信息会打印大量的日志,即一条或者一段时间内的日志量远超正常水平,例如log4j产生的日志,符合此特征。2、 执行中断导致日志停止打印,产生的日志量远远小于正常水平,例如对程序、脚本执行过程记录的日志,一旦执行异常退出,日志终止打印。3、 日志中没有明显的关键字或者其他标识,能够标识正常或者异常。...
2018-07-04 16:09:00
1175
原创 在大数据场景下借鉴Splunk SPL的提供通用的数据分析手段
Splunk是什么Splunk 是机器数据的引擎。使用 Splunk 可收集、索引和利用所有应用程序、服务器和设备生成的快速移动型计算机数据 。 使用 Splunking 处理计算机数据,可让您在几分钟内解决问题和调查安全事件。监视端到端基础结构,避免服务性能降低或中断。以较低成本满足合规性要求。关联并分析跨越多个系统的复杂事件。Splunk SPL搜索处理语言SPL是Splunk Search ...
2018-06-10 15:18:10
3259
原创 Splunk SNMP Module Input的使用方式改进
简简单单3步搞定MIB到pysnmp兼容的python模块。Splunk SNMP Module Input的官方文档中,所使用的Mib文本文件转换为pysnmp支持的python脚本的方式相当麻烦且容易出错。虽然在ubuntu中可以直接使用apt install 的方式安装 build-pysnmp-mib的方式安装build-pysnmp-mib工具,但是在使用过程中也会报很多莫名其妙的错误。
2018-04-13 11:48:37
1353
原创 Splunk二次开发使用Python 编写自定义搜索命令
前言本文的目标是让读者对Splunk编写自定义搜索命令有个基本的概念,并不是详尽的开发指南。自定义搜索命令简介Splunk Spl语言是将Splunk的一系列搜索命令组织成数据处理的管道,如下图所示,提供了140多种搜索命令,基本覆盖了日常对数据处理的各种场景。其中search命令是SPL语言的默认命令,可以不明确的写在语句中。 但是在日常使用的过程中,有很多特殊的应用场景中,我们需要根据业务逻...
2018-03-31 21:56:52
2907
1
翻译 Apache Beam核心—触发器规约
概述本文公式化的描述了Apache Beam中触发器的语义,然后推导出在实现触发器时的限制。 目标是为Beam Runner开发者和高级的用户提供参考。 动机大数据中批处理的输出结果是最终的结果,处理时间是在计算过程中的临时使用的。相比之下,流处理更关注在最终结果出来之前的中间结果。可能的方式是对输入数据进行窗口化切分,当窗口数据被认定是已经全部到达的时候,对每一个窗口产生输出,计
2017-11-25 19:30:57
781
原创 Splunk 工具App和Add-on整理总结
Splunk工具App和插件Splunk仪表盘样例App: https://splunkbase.splunk.com/app/1603/ Splunk仪表板应用程序提供了一些实例,让您能够亲身实践,学习使用Simple XML快速创建丰富仪表板所需的基本概念和工具。 这个新的应用程序结合了边做边学的Simple XML示例,包括对Simple XML的扩展,以进一步定制布局,交互性和
2017-11-24 17:11:40
3802
原创 Splunk 存储App和Add-on整理总结
Splunk功能性 App和插件EMC存储EMC ISILONApp: https://splunkbase.splunk.com/app/2688/ Add-on: https://splunkbase.splunk.com/app/2689/ 针对Splunk Enterprise的EMC Isilon应用程序提供了IT专业人员深入的操作可视性,以便深入了解EMC Isil
2017-11-24 16:57:09
1320
原创 Splunk 安全App和Add-on整理总结
Splunk功能性 App和插件赛门铁克终端防护插件App:https://splunkbase.splunk.com/app/2772/ Symantec Endpoint ProtectionAdd-on 允许Splunk平台管理员从Symantec Endpoint Protection Manager转储文件收集SEP服务器和客户端活动日志。 在Splunk平台对事件进行索
2017-11-24 16:55:26
1946
原创 Splunk 数据库App和Add-on整理总结
Splunk数据库 App和Add-onOracleAdd-on: https://splunkbase.splunk.com/app/1910 Splunk用于Oracle数据库的插件允许Splunk软件管理员从Oracle数据库服务器收集和提取数据。 该附加组件可以通过监视安装了Oracle数据库服务器的操作系统上的标准和精细审计跟踪,跟踪文件,事件,警报,侦听器和其他日志来直接导
2017-11-24 16:53:34
3656
原创 Splunk 网络App和Add-on整理总结
Splunk功能性 App和插件思科Cisco Networks App for Splunk Enterprise包含了仪表盘、数据模型和分析来自于Cisco IOS, IOS XE, IOS XR and NX-OS数据的处理逻辑。 插件:https://splunkbase.splunk.com/app/1467/ App:https://splunkbase.splun
2017-11-24 16:51:20
2484
原创 Splunk 操作系统App和Add-on整理总结
Splunk操作系统 App和Add-onWindows基础设置App参考文档:http://docs.splunk.com/Documentation/MSApp/latest/Reference/Aboutthismanual App:https://splunkbase.splunk.com/app/1680/ 适用于Windows基础架构的Splunk应用程序提供了用于Wi
2017-11-24 16:48:03
1146
原创 双活数据中心方案
目录 一、全局站点方案综述 1 二、全局站点双活解决方案 1 2.1 互联网区站点双活方案 1 2.2 互联网区站点故障切换 1 2.2.1 站点级故障切换 1 【专业术语说明】GSLB: 全局站点负载均衡设备SLB:本地服务器负载均衡LLB: 多链路负载均衡一、全局站点方案综述 全局站点的高可靠性规划主要
2017-11-20 15:36:06
13154
1
原创 Splunk App for Stream
Splunk Stream是什么Splunk Stream是Splunk官方提供的免费App,可以捕获,过滤,索引和分析网络事件数据流,内置了大量的数据分析和可视化功能,并且能够创建新的数据流分析和可视化界面。是Splunk Enterprise Security和Splunk User Behavior Analisis的基础,提供数据。Stream"流"是由特定网络协议和一组字段定
2017-11-02 09:44:47
2044
原创 Apache Beam Fn API如何接收和发送数据
简介Overviews在Apache Beam Fn API 总体介绍中阐述了总体视角,列出了一系列相关的文档。本文中描述了在处理Bundle时,Beam Runner和Beam SDK Harness之间使用Fn API发送和接收数据的模型。发送和接受数据 要求 高层视图 逻辑流Logical Stream 编码和解码已知类型 编码和解码未知类型 应
2017-10-15 17:47:36
977
原创 Apache Beam Fn API 处理Bundle
概述Overview在Apache Beam Fn API 总体介绍中阐述了总体视角,列出了一系列相关的文档。本文中描述了Beam Runner和Beam SDK Harness交互的细节,使用Fn API来处理Bundle(一组乱序的数据)处理Bundle 需求Requirements 高层视角的处理过程 注册UDF用户自定义函数 设计和实现考虑 实现要求
2017-10-15 16:02:06
859
原创 Apache Beam Fn API 总体介绍
Apache Beam技术愿景中,希望可以使用任意语言Beam SDK编写Beam Pipeline,然后可以运行在任何Runner中(每个Runner对应一个底层的大数据引擎,例如Flink Runner、Spark Runner)的能力,Apache Beam理论上可以视为一个VM虚拟机(想象一下Java的JVM,Scala、Groovy、Coljure等多种语言都可以在JVM中执行,可以运行
2017-10-15 15:17:08
1631
原创 Apache Beam核心--延迟和窗格设计
翻译自:谷歌Apache Beam项目Leader Kenneth Knowles以及Mark Shields。 本文中定义了Apache Beam编程模型中的延迟和数据丢弃,以及在Pipeline中如何传播。目的是为Runner开发者提供参考。目录摘要:入门 定义公式 Watermarks 定义和标记延迟 要求 不变性 窗格标签 对输入
2017-10-12 17:10:22
1544
翻译 Apache Beam适时有状态计算
Timely (and Stateful) Processing with Apache Beam。在先前的Apache Beam中的有状态计算中,介绍了Apache Beam中有状态计算的基础知识,重点介绍了对每个元素的处理中添加的状态特性。所谓的适时处理,是有状态计算的补充,是通过设置定时器来,在将来某个时间点上的(有状态的)进行回调。
2017-09-22 15:50:36
1568
翻译 Apache Beam中的有状态计算
Beam帮助我们处理流式、乱序、大规模的数据,并且提供了高度的抽象机制Pipeline,统一了流式和批量数据处理。 从功能上流处理可以分为无状态(stateless)的和有状态(stateful)两种。在流处理的框架里引入状态管理大大提升了系统的表达能力,让用户能够很方便地实现复杂的处理逻辑,是流处理在功能上的一个飞跃。以下提到State或者状态是相同的概念。 有状态计算是Apa
2017-09-22 14:04:11
2333
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人