2017年03月_chenshiying007

12月 11月 09月 06月 03月

原创 Maven在生成环境的使用及其配置说明

Maven使用nexus相关信息Mavennexus地址：http://192.168.210.185:8081/nexusRepositories仓库主要包含以下：Public RepositoriesGroup(组)包括了 Releases、Snapshots、3rd party、Central、Sonatype Repository3rd partyHosted（本地库）主要用于上传远程仓库...

2017-03-21 20:49:47 1110

转载 haproxy实现hive的ha

1.概述这篇博客是接着《高可用Hadoop平台》系列讲，本篇博客是为后面用 Hive 来做数据统计做准备的，介绍如何在 Hadoop HA 平台下集成高可用的 Hive 工具，下面我打算分以下流程来赘述：环境准备集成并配置 Hive 工具使用 Java API 开发 Hive 代码下面开始进行环境准备。2.环境准备Hive版本：《 Hive-0.14 》

2017-03-18 08:31:52 767

转载 Spark Streaming 中使用 zookeeper 保存 offset 并重用

在 Spark Streaming 中消费 Kafka 数据的时候，有两种方式分别是 1）基于 Receiver-based 的 createStream 方法和 2）Direct Approach (No Receivers) 方式的 createDirectStream 方法，详细的可以参考 Spark Streaming + Kafka Integration Guide ，但是第二种使

2017-03-17 20:15:28 1800

转载 Spark Streaming事务处理彻底掌握

本篇文章主要从二个方面展开：一、Exactly Once二、输出不重复事务：银行转帐为例，A用户转账给B用户，B用户可能收到多笔钱，如何保证事务的一致性，也就是说事务输出，能够输出且只会输出一次，即A只转一次，B只收一次。从事务视角解密SparkStreaming架构：SparkStreaming应用程序启动，会分配资源，除非整个集群硬件资源奔溃，一

2017-03-17 20:04:47 486

转载 Kafka管理工具介绍

http://geeks.aretotally.in/spark-streaming-kafka-direct-api-store-offsets-in-zk/Kafka内部提供了许多管理脚本，这些脚本都放在$KAFKA_HOME/bin目录下，而这些类的实现都是放在源码的kafka/core/src/main/Scala/kafka/tools/路径下。Consume

2017-03-17 19:44:05 2255

转载 Spark磁盘空间满了

Spark使用一段时间后，发现磁盘空间没有了，尤其是运行SparkStreamingSpark streaming在不断的写日志，日志将磁盘撑满了。无论磁盘空间多大，都会撑破的。有时运行一个晚上，有时运行一个上午，磁盘写满了。1、配置log最大的保存文件大小！！最多保存多少文件！2、配置每一个文件的最大的大小！3、executor roll的间隔时间interval按天、小时、分钟

2017-03-17 19:33:00 1972

转载研发解决方案介绍-基于statsD+Graphite 智能监控解决方案

本文档适用人员：研发和运维员工提纲：监控平台要做到什么程度？为什么要自己做？几个通用技术问题绘图所依赖的数据如何收集？如何加工？如何存储？图形如何绘制，各种指标如何叠加？拓扑关系如何绘制？技术选型哲学最终选了statsd+graphite数据的采集数据存储的粒度天机的技术选型一，监控平台要做到什么程度？为什么要自己做？运维监控满满都是着各种开源系统以及它们的 Dashboard：ZabbixN...

2017-03-17 19:25:13 4021

转载 Kafka+Spark Streaming+Redis实时计算整合实践

基于Spark通用计算平台，可以很好地扩展各种计算类型的应用，尤其是Spark提供了内建的计算库支持，像Spark Streaming、Spark SQL、MLlib、GraphX，这些内建库都提供了高级抽象，可以用非常简洁的代码实现复杂的计算逻辑、这也得益于Scala编程语言的简洁性。这里，我们基于1.3.0版本的Spark搭建了计算平台，实现基于Spark Streaming的实时计算。我

2017-03-17 19:02:03 803

转载从零开始学习，Apache Spark源码走读（一）

摘要：自2013年6月进入Apache孵化器，Spark已经有来自25个组织的120多位开发者参与贡献。而在不久前，更成为了Apache软件基金会的顶级项目，当下已是知名Hadoop开发商Cloudera和MapR的新宠。Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台，它立足于内存计算，性能超过Hadoop百倍，即使使用磁盘，迭代类型的计算也会有10倍速度的提升。S

2017-03-16 17:28:04 1000