
大数据
Pitt_Zhou
一个信奉“是男人就要做到极致”的人。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
IMF传奇行动第83课:Spark Streaming第二课:用Scala和Java二种方式实战Spark Streaming开发
现在大数据最流行的几种开发语言(Java,Scala,Python和R)中,你会多少种?没关系,通过阅读《用Scala和Java二种方式实战Spark Streaming开发》这篇图文并茂的博文,你能快速了解Scala和Java是怎么来开发Spark Streaming的实战代码。原创 2016-04-26 23:16:07 · 937 阅读 · 0 评论 -
如何下载Cloudera归档网页上看不到的zookeeper?
最近需要安装大数据平台测试环境,于是想用Cloudera的一套组件试试手。因为嫌弃Cloudera Manager安装不过瘾,于是想手动从零开始安装。郁闷的是,到安装zookeeper的时候,在http://archive.cloudera.com/cdh5/cdh/5/页面死活找不到zookeeper的tar.gz。...大约过了十几秒的超长折磨时间,情急之下,灵机一动,照着其他cdh组...原创 2019-08-22 10:16:03 · 646 阅读 · 2 评论 -
Spark定制班第1课:通过案例对Spark Streaming透彻理解三板斧之一:解密Spark Streaming另类实验及Spark Streaming本质解析
今天是Spark定制班的第1课,这一课将成为我们未来发布Spark源码定制版本的引路石。注:我们当前课程内容基于Spark 1.6.1版本(在2016年5月来说是Spark最新版本)讲解。我们从第一课就选择Spark子框架中的Spark Streaming。那么,我们为什么要选择从Spark Streaming入手开始我们的Spark源码版本定制之路?有下面几个方面的理由:原创 2016-05-03 23:07:51 · 4748 阅读 · 0 评论 -
Spark定制班第7课:Spark Streaming源码解读之JobScheduler内幕实现和深度思考
Inlast course, we learned "How the Spark Streaming Job is generated dynamically".Fromthat course, we have known there are 3 key classes for Spark Streaming Job:JobScheduler: schedules Spark Stre...原创 2016-06-07 22:07:02 · 841 阅读 · 0 评论 -
IMF传奇行动第82课:Spark Streaming第一课:案例动手实战并在电光石火间理解其工作原理
在大数据时代Spark Streaming能做什么?平时用户都有网上购物的经历,用户在网站上进行的各种操作通过Spark Streaming流处理技术可以被监控,用户的购买爱好、关注度、交易等可以进行行为分析。在金融领域,通过Spark Streaming流处理技术可以对交易量很大的账号进行监控,防止罪犯洗钱、财产转移、防欺诈等。在网络安全性方面,黑客攻击时有发生,通过Spark Streaming流处理技术可以将某类可疑IP进行监控并结合机器学习训练模型匹配出当前请求是否属于黑客攻击。其他方面,如:垃原创 2016-04-17 12:13:56 · 6038 阅读 · 0 评论 -
Spark定制班第5课:基于案例一节课贯通Spark Streaming流计算框架的运行源码
本期内容1 在线动态计算分类最热门商品案例回顾与演示2 基于案例贯通Spark Streaming的运行源码1在线动态计算分类最热门商品案例回顾与演示我们用SparkStreaming+SparkSQL来实现分类最热门商品的在线动态计算。代码如下:package com.dt.spark.streamingimport org.apache.spa...原创 2016-05-08 17:48:45 · 918 阅读 · 0 评论 -
Spark定制班第4课:Spark Streaming的Exactly-Once的事务处理和不重复输出彻底掌握
本期内容1 Exactly-Once事务处理2 输出不重复的解决办法1 Exactly-Once事务处理1)什么是Exactly-Once事务?数据仅处理一次并且仅输出一次,这样才是完整的事务处理。以银行转帐为例,A用户转账给B用户,B用户可能收到多笔钱,保证事务的一致性,也就是说事务输出,能够输出且只会输出一次,即A只转一次,B只收一次。2)从事务...原创 2016-05-08 16:31:49 · 1956 阅读 · 0 评论 -
Spark定制班第3课:通过案例对SparkStreaming透彻理解三板斧之三:解密Spark Streaming运行机制和架构进阶之Job和容错
本期内容:1解密SparkStreamingJob架构和运行机制2解密SparkStreamingJob容错架构和运行机制1解密SparkStreamingJob架构和运行机制理解SparkStreaming的Job的整个架构和运行机制对于精通SparkStreaming是至关重要的。我们运行以下的程序,通过这个程序的运行过程进一步加深...原创 2016-05-08 00:04:22 · 913 阅读 · 0 评论 -
Spark定制班第2课:通过案例对Spark Streaming透彻理解三板斧之二:解密Spark Streaming运行机制和架构
本期内容:1 解密Spark Streaming运行机制2 解密Spark Streaming架构1 解密Spark Streaming运行机制上节课我们谈到了技术界的寻龙点穴。这就像过去的风水一样,每个领域都有自己的龙脉,Spark就是龙脉之所在,它的龙穴或者关键点就是SparkStreaming。这是上一节课我们非常清晰知道的结论之一。而且上一节课,我们采用了降维的方式...原创 2016-05-07 20:20:44 · 912 阅读 · 0 评论 -
Spark定制班第6课:Spark Streaming源码解读之Job动态生成和深度思考
Spark Streaming Job动态生成三大核心JobGenerator:负责Job生成 JobSheduler:负责Job调度 ReceiverTracker:获取元数据JobGenerator在构造的时候有一个核心的参数是jobScheduler,jobScheduler是整个Job(作业)的生成和提交给集群的核心,JobGenerator会基于DStream生成Job...原创 2016-05-31 00:32:31 · 656 阅读 · 0 评论 -
IMF传奇行动第86课:Spark Streaming第五课:Spark Streaming数据源Flume实际案例分享
本课分三部分内容:•第一部分讲什么是Flume;•第二部分讲Flume+Kafka+Spark Streaming应用场景;•第三部分讲Kafka数据写入Spark Streaming有两种方式。原创 2016-05-02 21:11:15 · 807 阅读 · 0 评论 -
IMF传奇行动第85课:Spark Streaming第四课:基于HDFS的Spark Streaming案例实战和内幕源码解密
如何用代码快速编写一个基于HDFS的Spark Streaming案例,并且立即在Spark集群环境中测试代码的运行结果?本文就是来解答上述问题,并且还解密其中关键的Spark Streaming内幕源码。本文一共分三部分讲解:一、准备HDFS和Spark集群环境二、用Java代码编写基于HDFS的Spark Streaming案例三、Spark Streaming on HDFS源码解密原创 2016-05-01 17:39:31 · 1661 阅读 · 0 评论 -
IMF传奇行动第84课:Spark Streaming第三课:StreamingContext、DStream、Receiver深度剖析
本课分成四部分讲解:第一部分对StreamingContext功能及源码剖析;第二部分对DStream功能及源码剖析;第三部分对Receiver功能及源码剖析;最后一部分将StreamingContext、DStream、Receiver结合起来分析其流程。原创 2016-04-30 10:45:52 · 6489 阅读 · 0 评论 -
Oozie需要的ext-2.2.zip下载链接
Oozie-4.1.0-cdh5.16.2指定需要ext-2.2.zip,但是找到下面最常被提到的网址都一无所获:http://www.sencha.com/products/js/download.phphttp://www.sencha.com/learn/Ext_Version_Archiveshttp://olex.openlogic.com/packages/extjs/2....原创 2019-09-01 21:49:44 · 2086 阅读 · 1 评论