
零基础学大数据
古老的屋檐下
电子科技大学信息与通信工程硕士
字节跳动基础架构(存储)工程师
展开
-
scala安装
上scala官网下载对应平台的安装包,这里以Ubuntu,scala2.11版本为例scala下载地址:https://downloads.lightbend.com/scala/2.11.12/scala-2.11.12.tgz下载好后,进入下载目录:执行tar -xzvf scala-xxx.tgzsudo vim /etc/profile在打开的文件中配置scala HOME,即...原创 2019-04-26 08:18:01 · 161 阅读 · 0 评论 -
【零基础学flink】flink安装和wordcount实战
一、安装目前最新的flink版本是:1.8.0下载地址:https://mirrors.tuna.tsinghua.edu.cn/apache/flink/flink-1.8.0/flink-1.8.0-bin-scala_2.11.tgz大家可以去flink官网下载自己需要的flink版本,这里以目前最新的版本为例flink版本列表:https://flink.apache.org/...原创 2019-04-26 08:19:18 · 1122 阅读 · 0 评论 -
【零基础学flink】flink实战(idea版本)
回顾上一小节中我们介绍了flink的安装,以及flink word count的实现,本文主要介绍如何使用idea开发flink项目一、新建Maven项目这一步比较简单,网上也有很多教程,主要是使用maven来管理依赖包二、pom的配置 <dependency> <groupId>org.apache.flink</gr...原创 2019-04-26 08:21:32 · 962 阅读 · 0 评论 -
【零基础学flink】flink实战:使用flink分析wiki log
本文将从头开始,从设置Flink项目到在Flink集群上运行流分析程序。 Wikipedia提供了一个IRC频道,其中记录了对Wiki的所有编辑。我们将在Flink中读取此通道,并计算每个用户在给定时间窗口内编辑的字节数。这很容易使用Flink在几分钟内实现,但它将为您提供一个良好的基础,从而开始自己构建更复杂的分析程序。一、idea环境搭建使用idea新建maven项目,并把相关依赖包加入到...原创 2019-04-26 08:23:46 · 326 阅读 · 0 评论 -
【零基础学flink】flink中常用API详解
Flink程序是实现分布式集合转换的常规程序(例如, filtering, mapping, updating state, joining, grouping, defining windows, aggregating)。最初从源创建集合(例如,通过从文件,kafka主题或从本地的内存集合中读取)。结果通过接收器返回,接收器可以例如将数据写入(分布式)文件或标准输出(例如,命令行终端)。 Fl...原创 2019-04-26 08:24:43 · 2766 阅读 · 0 评论 -
【零基础学flink】flink数据流编程模型
数据流编程模型抽象层次程序和数据流并行数据流WindowsTime有状态的操作容错检查点checkpoint批量流媒体抽象层次Flink提供不同级别的抽象来开发流/批处理应用程序。最低级抽象只提供有状态流。它 通过Process Function嵌入到DataStream API中。它允许用户自由处理来自一个或多个流的事件,...原创 2019-04-26 08:22:31 · 268 阅读 · 0 评论 -
Flink技术源码解析(一):Flink概述与源码研读准备
原文:https://yq.aliyun.com/articles/600173一、前言Apache Flink作为一款高吞吐量、低延迟的针对流数据和批数据的分布式实时处理引擎,是当前实时处理领域的一颗炙手可热的新星。关于Flink与其它主流实时大数据处理引擎Storm、Spark Streaming的不同与优势,可参考https://blog.youkuaiyun.com/cm_chenmin/a...转载 2019-05-04 11:05:11 · 8229 阅读 · 0 评论 -
【零基础学flink】flink的分布式运行环境
任务和转换链 (tasks andtransformations chains)Job Managers, Task Managers, Clients任务槽和资源(Task Slots and Resources)State Backends保存点(savepoint)任务和转换链 (tasks andtransformations chains)对于分布式执行,flink的转换...原创 2019-04-29 13:54:56 · 339 阅读 · 0 评论 -
【零基础学flink】flink DataStream API 详解
Flink中的DataStream主要用于实现数据流的转换操作(例如,过滤,更新状态,定义窗口,聚合)。最初可以从各种源(例如,消息队列,套接字流,文件)创建数据流(DataStream)。结果通过sink返回,sink操作主要有:将数据写入文件、标准输出(例如命令行终端)。Flink程序可以在各种环境中运行,独立运行或嵌入其他程序中。执行可以在本地JVM中执行,也可以在许多计算机集群上执行。有...原创 2019-04-29 13:55:45 · 1036 阅读 · 1 评论