
大数据
文章平均质量分 89
列国周游
这个作者很懒,什么都没留下…
展开
-
Flink应用案例参考手册
本手册整理自互联网的公开资料,按照行业分门别类,方便各行业大数据、Flink从业人员参考。链接: https://pan.baidu.com/s/1qVVfqQsSTpujJqEZTi00IQ 提取码: xhv4 复制这段内容后打开百度网盘手机App,操作更方便哦--来自百度网盘超级会员v1的分享...原创 2020-12-17 19:35:10 · 318 阅读 · 0 评论 -
精通Flink原理必读 -《Flink内核原理与实现》
《Flink内核原理与实现》既讲解了Flink的入门、安装、流计算开发入门、类型和序列化系统、监控运维、安全管理配置等基础知识,又讲解了Flink的时间概念、Window的实现原理及其代码解析,Flink的容错机制原理,Flink容错的关键设计、代码实现分析,Flink Job从源码到执行整个过程的解析,Flink Job的调度策略、资源管理策略、内存管理、数据交换的关键设计和代码实现分析,Flink的RPC通信框架等深度内容。《Flink内核原理与实现》适合对实时计算感兴趣的大数据开发、运维领域的从业原创 2020-09-03 14:48:29 · 5450 阅读 · 8 评论 -
在大数据场景下借鉴Splunk SPL的提供通用的数据分析手段
Splunk是什么Splunk 是机器数据的引擎。使用 Splunk 可收集、索引和利用所有应用程序、服务器和设备生成的快速移动型计算机数据 。 使用 Splunking 处理计算机数据,可让您在几分钟内解决问题和调查安全事件。监视端到端基础结构,避免服务性能降低或中断。以较低成本满足合规性要求。关联并分析跨越多个系统的复杂事件。Splunk SPL搜索处理语言SPL是Splunk Search ...原创 2018-06-10 15:18:10 · 3263 阅读 · 0 评论 -
Apache Nifi vs StreamSets简单比较
前言 随着数据量的爆炸,数据来源越来越多,例如文件、数据库、Hadoop分布式文件系统, web服务接口, MQTT, RabbitMQ, Kafka, 甚至TCP、UDP端口都可以作为数据来源。 当用户的ETL需求比较复杂时,使用可视化Dataflow处理工具能降低使用门槛,提高效率。有两个开源的Dataflow数据处理工具,可以帮助完成复杂ETL的工作:Apac...原创 2018-08-03 17:19:34 · 16590 阅读 · 0 评论 -
Apache Arrow的内存结构
本文的目标清楚的描述Apach相对类型(原始类型和初始嵌套类型集),到达可以实现的程度 每一种相对类型的内存结构和随机访问的模式 Null值的表达最终使读者对Apache Arrow的底层有一个大致清晰的了解,如果能够从中了解到一点硬件级性能优化的概念,那么便是超出了期望。字节顺序Apache Arrow默认使用Little-Endian,在Apache Arrow的Schem...翻译 2018-08-18 09:37:15 · 3497 阅读 · 0 评论 -
Splunk常见分析场景参考1
Splunk是个平台,可以满足各种应用场景,那么到底能做什么,这是很多人的困惑,本文的目的是列举一些Splunk在实际使用中落地的场景,供大家参考。交易交易量统计交易量趋势交易金额趋势交易平均耗时 交易平均耗时趋势交易成功率、失败率统计上网行为员工使用设备占比员工访问网站Top N员工上传下载数据量员工搜索词排行榜员工持有...原创 2018-08-16 10:37:37 · 3936 阅读 · 1 评论 -
Splunk常见分析场景参考2
Splunk是个平台,可以满足各种应用场景,那么到底能做什么,这是很多人的困惑,本文的目的是列举一些Splunk在实际使用中落地的场景,供大家参考。VPN接入VPN认证成功用户+来源IP清单时间、用户、源ip、登录次数VPN认证成功、失败时间序列图VPN来源IP地图分布VPN源IP访问的内部IP 来源IP、访问内部IP清单、访问内部IP统计 VPN 转换IP情况...原创 2018-08-16 10:42:53 · 1369 阅读 · 0 评论 -
精通Apache Flink必读系列文章
Flink是最接近于谷歌Dataflow大数据分析平台的设计的开源分布式计算引擎,其核心设计理念与Spark有很大的不同。从设计出发点,Flink是一个流计算处理计算引擎,把批处理视为无限流计算的一种特例,Spark是批处理计算引擎,把流处理视为迷你批处理,因为设计上的差异,导致在对处理时延要求高的场景中,Flink更加合适。从生态上来说,二者都有SQL、机器学习、图计算等基本的组件,但是...原创 2018-08-17 11:38:25 · 11311 阅读 · 1 评论 -
Flink应用参考案例清单
异常检测&反欺诈基于实时计算(Flink)与高斯模型构建实时异常检测系统实时欺诈检测(风控)准实时异常检测系统广告计算广告与流处理技术实践案例Flink 在有赞实时计算的实践...原创 2019-05-28 11:46:07 · 1125 阅读 · 0 评论 -
《基于事件流的高效模式匹配》论文中文版-Flink CEP 复杂事件处理核心基础
Flink的CEP实现重度参考了论文《Efficient Pattern Matching over Event Streams》,此文是该论文核心部分的中文版。下边是论文的正文部分事件流上的模式匹配应用领域越来越广泛,例如金融服务,基于RFID的库存管理,点击流分析和电子健康医疗等。正则表达式是模式匹配的一种应用,相比正则表达式比配,流上的匹配面临两个新的挑战:流上的模式匹配语言,必须...翻译 2019-07-10 10:02:09 · 2052 阅读 · 0 评论 -
Apache Beam核心—触发器规约
概述本文公式化的描述了Apache Beam中触发器的语义,然后推导出在实现触发器时的限制。 目标是为Beam Runner开发者和高级的用户提供参考。 动机大数据中批处理的输出结果是最终的结果,处理时间是在计算过程中的临时使用的。相比之下,流处理更关注在最终结果出来之前的中间结果。可能的方式是对输入数据进行窗口化切分,当窗口数据被认定是已经全部到达的时候,对每一个窗口产生输出,计翻译 2017-11-25 19:30:57 · 781 阅读 · 0 评论 -
Apache Beam适时有状态计算
Timely (and Stateful) Processing with Apache Beam。在先前的Apache Beam中的有状态计算中,介绍了Apache Beam中有状态计算的基础知识,重点介绍了对每个元素的处理中添加的状态特性。所谓的适时处理,是有状态计算的补充,是通过设置定时器来,在将来某个时间点上的(有状态的)进行回调。翻译 2017-09-22 15:50:36 · 1568 阅读 · 0 评论 -
Streaming 102批处理之外的流处理世界
Steaming 101介绍了基本的术语,有限数据(bounded)VS无限数据(unbounded),然后是批处理和流处理的区别,在介绍完术语之后,阐述了事件时间和处理时间这两个重要概念,在Steaming 102中增加了3个新的概念:Watermark、触发器、累积。最终介绍了批处理和流处理的统一模型。翻译 2017-09-18 14:06:41 · 5442 阅读 · 0 评论 -
Apache Beam简介
Apache Beam的前世今生 Apache Beam前身是Google Dataflow SDK,DataFlow是谷歌的提供大数据计算平台。在DataFlow之前,谷歌的批处理和流处理(流计算,实时处理)使用了不同系统,流处理有MillWheel、FlumeJava等,批处理有MapRedude,不同的平台使用了不同的Api,无疑提升了开发的难度,所以DataFlow横空出世,提出了原创 2017-09-20 23:46:26 · 6789 阅读 · 0 评论 -
Apache Beam编程指南
Apache Beam 开发指南,详细的介绍Apache的特性极其用法,并附有代码示例。翻译 2017-09-21 18:05:18 · 6750 阅读 · 0 评论 -
Apache Beam中的有状态计算
Beam帮助我们处理流式、乱序、大规模的数据,并且提供了高度的抽象机制Pipeline,统一了流式和批量数据处理。 从功能上流处理可以分为无状态(stateless)的和有状态(stateful)两种。在流处理的框架里引入状态管理大大提升了系统的表达能力,让用户能够很方便地实现复杂的处理逻辑,是流处理在功能上的一个飞跃。以下提到State或者状态是相同的概念。 有状态计算是Apa翻译 2017-09-22 14:04:11 · 2333 阅读 · 0 评论 -
Apache Beam核心--延迟和窗格设计
翻译自:谷歌Apache Beam项目Leader Kenneth Knowles以及Mark Shields。 本文中定义了Apache Beam编程模型中的延迟和数据丢弃,以及在Pipeline中如何传播。目的是为Runner开发者提供参考。目录摘要:入门 定义公式 Watermarks 定义和标记延迟 要求 不变性 窗格标签 对输入原创 2017-10-12 17:10:22 · 1544 阅读 · 0 评论 -
Apache Beam Fn API 总体介绍
Apache Beam技术愿景中,希望可以使用任意语言Beam SDK编写Beam Pipeline,然后可以运行在任何Runner中(每个Runner对应一个底层的大数据引擎,例如Flink Runner、Spark Runner)的能力,Apache Beam理论上可以视为一个VM虚拟机(想象一下Java的JVM,Scala、Groovy、Coljure等多种语言都可以在JVM中执行,可以运行原创 2017-10-15 15:17:08 · 1631 阅读 · 0 评论 -
Apache Beam Fn API 处理Bundle
概述Overview在Apache Beam Fn API 总体介绍中阐述了总体视角,列出了一系列相关的文档。本文中描述了Beam Runner和Beam SDK Harness交互的细节,使用Fn API来处理Bundle(一组乱序的数据)处理Bundle 需求Requirements 高层视角的处理过程 注册UDF用户自定义函数 设计和实现考虑 实现要求原创 2017-10-15 16:02:06 · 859 阅读 · 0 评论 -
Apache Beam Fn API如何接收和发送数据
简介Overviews在Apache Beam Fn API 总体介绍中阐述了总体视角,列出了一系列相关的文档。本文中描述了在处理Bundle时,Beam Runner和Beam SDK Harness之间使用Fn API发送和接收数据的模型。发送和接受数据 要求 高层视图 逻辑流Logical Stream 编码和解码已知类型 编码和解码未知类型 应原创 2017-10-15 17:47:36 · 977 阅读 · 0 评论 -
Splunk App for Stream
Splunk Stream是什么Splunk Stream是Splunk官方提供的免费App,可以捕获,过滤,索引和分析网络事件数据流,内置了大量的数据分析和可视化功能,并且能够创建新的数据流分析和可视化界面。是Splunk Enterprise Security和Splunk User Behavior Analisis的基础,提供数据。Stream"流"是由特定网络协议和一组字段定原创 2017-11-02 09:44:47 · 2046 阅读 · 0 评论 -
Streaming 101批处理之外的流处理世界
Streaming 101批处理之外的流处理世界 本文整理谷歌Tyler Akidau写的两篇文章,对于技术人员来理解大数据计算中的一些概念非常有用。原文写于2015年,所以对有些问题的是不准确的,但是不影响文章所表达的主要宗旨。前序 流处理在大数据当中是一大难题,理由如下:对于业务来说,数据的时效性越来越重要,从批处理切换到流处理是降低延迟的好方法。翻译 2017-09-13 09:12:00 · 4924 阅读 · 0 评论