姜嘟嘟-优快云博客

原创 Mac系统安装kettle

Mac 安装kettlekettle简介kettle安装安装JDK安装kettle启动kettlekettle简介Kettle是一款国外开源的ETL工具，纯java编写，可以在Window、Linux、Unix上运行，数据抽取高效稳定。其中，Spoon是Kettle中的一个组件，其他组件有PAN，CHEF，Encr和KITCHEN等，Spoon通过图形化的页面，方便直观的让你完成数据转换的操作。kettle安装安装JDK安装kettlehttps://sourceforge.net/pro

2021-03-23 09:39:25 1164 2

原创 drools7规则引擎

Drools规则引擎场景风控反洗钱系统商品折扣系统积分系统概述把复杂冗余的业务规则与系统分离开来，做到架构的可复用、可移植性。Drools5与Drools7版本变更Drools是业务规则管理系统(BRMS)解决方案，设计一下项目：Drools Workbench:业务规则管理系统Drools Expert:业务规则引擎Drools Fusion:事件处理jBPM:工作流引擎OptalPlanner:规则引擎Drools组成部分Drools规则Drools规则的解

2021-03-21 18:21:26 1220

原创软件架构设计

软件架构设计软件架构的概念软件架构风格描述-特定应用领域中系统组织方式的惯用模式。架构风格定义一个系统家族。即一个体系结构定义一个词汇表和一组约束，词汇表中包含一些构件和连接体类型，而这组的约束体现出系统是如何将这些构件和连接件组合起来的。软件架构的作用是项目关系人进行交流的手段是早期设计决策的体现是可传递和可重用的模型对开发的知道和规范化意义不容忽略软件架构建模结构建模框架建模动态建模过程建模功能建模软件架构建模（类UML）逻辑视图——最终用户：功能需求——U

2021-03-10 14:12:40 935 1

原创 Storm的一个简单例子

maven依赖 <dependency> <groupId>org.apache.storm</groupId> <artifactId>storm-core</artifactId> <version>1.2.3</version> </dependency>相关类LogAnalyserStorm.javaFa

2021-03-05 14:19:32 315

原创 Storm基础概念

概念Topologies（拓扑）实时应用程序的逻辑被封装在Storm topology（拓扑）中，Storm topolopy（拓扑）类似于MapReduce作业，两者之间关键的区别是MapReduce作业最终会完成，而topology任务会永远运行（除非kill它），一个拓扑是Spout和Bolt通过stream groupings连接起来的有向无环图。Streams（流）stream是storm中的核心概念，一个stream是一个无界的、以分布式方式并行创建和处理的Tuple序列，stream

2021-03-05 10:44:27 414 4

原创 Spark性能优化指南（高级篇）

Spark性能优化指南（高级篇）数据倾斜调优调优概述有的时候，我们可能会遇到大数据计算中最棘手的问题-数据倾斜，此时spark作业的性能会比期望差很多。数据倾斜调优，就是使用各种技术方案解决不同类型的数据倾斜问题，以保证spark作业的性能。数据倾斜发生时的现象绝大多数task执行的都非常快，但个别task执行极慢，比如，总共有1000个task，997个task都在1分钟之内执行完了，但是剩余两三个task却要一两个小时，这种情况很常见。原本能够正常执行的spark作业，某天突然报出OO

2021-03-04 19:35:35 492 1

原创 Spark Core配置参数

###Spark Core优化参数配置应用属性描述spark.driver.cores在集群模式下管理资源时，用于driver程序的CPU内核数量，默认为1；在生产环境的硬件上，这个值可能最小要上调到8或16spark.driver.maxResultSize如果应用频繁用此driver程序，建议对这个值的设置高于其默认值1G，0表示没有限制，这个值反应了Spark Action的全部分区中最大的结果集的大小spark.driver.memorydriver进程使用的

2021-03-04 16:29:45 728

原创 Spark知识讲解

Spark知识点讲解SparkSpark环境部署Spark简介为什么使用SparkSpark的优势Spark技术栈Spark架构设计Spark架构核心组件Spark交互工具Spark APISparkContextSparkSessionRDDDataSetDataFrameSpark RDD概念RDD与DAGRDD的特性RDD编程流程创建RDDRDD分区RDD的操作RDD转换算子RDD常用算子Spark分布式计算原理RDD的依赖关系DAG的工作原理SparkSpark环境部署前置条件：完成Scal

2021-02-23 15:38:21 1258

原创技术管理的三十条军规

技术管理的三十条军规目录技术管理的三十条军规1、组建12人左右的最小战斗单元。有时候人多并没有用，比如一个孕妇怀胎10月生下一个宝宝，你不可能找来10个孕妇怀胎一个月就能生下来。2、每两周一个迭代，并持续对产品方向做对焦，打造杀手级应用。在VUCA时代（变化莫测的时代），只有打造极致的产品和服务，才有机会胜出。3、高效会议，会前发出议题，与会人提前做准备，会议要有结论，执行结果跟踪。尽量心平气和的讨论，你每次骂别人的时候要考虑别人的感受。4、使用时间管理工具，每天做时间计划，发送给你

2021-01-31 21:26:02 291 2

原创 zookeeper+storm+cassandra的集群部署以及问题

服务器列表：（8C64G）10.104.142.12910.104.142.13110.104.142.13210.104.142.16110.104.142.16210.104.142.16310.104.142.16410.104.142.16510.104.142.16710.104.142.168

2016-05-19 10:07:26 1589

原创 IP库查询算法

IP库查询算法

2016-03-16 16:25:29 2502

原创 httpclient4.5+disruptor3.3.2+mongodb3.2+jsoup写的一个抓取小程序

最近由于工作上接手了一个storm的系统，storm采用dubbo接口接收数据，存队列，这里队列用的是jdk自带的阻塞队列ArrayBlockQueue，再做了几轮压测之后发现ArrayBlockQueue队列存在性能瓶颈。经老大介绍可以尝试disruptor；disruptor是一个开源的无锁队列，性能非常强悍，具体强悍到什么地步大家可以自测一下；但disruptor还是不适用于我们的系

2016-01-14 17:54:14 883

转载 Esper——Context

如果有不了解Esper的同学，建议先看看《Esper学习之一：Esper介绍》《Esper学习之二：事件类型》《Esper学习之三：进程模型》这三篇基础文章，这样会有助于Esper的学习。 Context是Esper里一个很有意思的概念，要是理解为上下文，我觉得有点不妥。以我的理解，Context就像一个框，把不同的事件按照框的规则框起来，并且有可能有多个框，而框与框之间不会互相

2015-10-26 20:06:10 556

转载 Esper——进程模型

http://blog.youkuaiyun.com/luonanqin 上周末本来要更新第三篇的，但是因为突发事情没能完成。这周我会争取更新两篇，让感兴趣的同学一次看个够。之前对Esper所能处理的事件结构进行了概述，并结合了例子进行讲解，不清楚的同学请看Esper学习之二：事件类型。今天主要为大家解释一下Esper是怎么处理事件的，即Esper的进程模型

2015-10-26 20:03:26 361

转载 Esper——事件类型

http://blog.youkuaiyun.com/luonanqin 上周我们介绍了Esper，它是一个适合实时分析数据的内存计算引擎。若有不了解的同学可以看一下Esper学习之一：Esper介绍。如果各位自己运行过之前的程序，应该对Esper的处理机制和EPL比较感兴趣。不过这篇文章就先来介绍一下Esper能处理的数据结构，即“事件”。Esper对事件有特殊

2015-10-26 19:46:48 381

转载 Esper学习——Esper介绍

转帖自：http://blog.youkuaiyun.com/luonanqin 由于项目需要，我开始了学习Esper的任务。刚开始觉得他是个很高级的东西，学了一段时间后发现他确实是很高级的东西。不过貌似在国内的应用很少，网上都查不到什么资料的，所以我觉得在博客里写一下自己的学习的收获，一是总结所学知识点，二是分享给更多的学习者，毕竟好东西不能这样被埋没了。今天就先来简单介

2015-10-26 19:45:52 486

转载 Cassandra

http://www.ibm.com/developerworks/cn/opensource/os-cn-cassandra/Cassandra 的数据存储结构Cassandra 的数据模型是基于列族（Column Family）的四维或五维模型。它借鉴了 Amazon 的 Dynamo 和 Google's BigTable 的数据结构和功能特点，采用 Memtable

2015-10-26 11:38:28 766

转载 Storm——Storm集成kafka

原帖地址：http://blog.youkuaiyun.com/xeseo前言在前面Storm系列之——基本概念一文中，提到过Storm的Spout应该是源源不断的取数据，不能间断。那么，很显然，消息队列系统、分布式内存系统或内存数据库是作为其数据源的很好的选择。本文就如何集成Kafka进行介绍。Kafka的基本介绍：http://blog.youkuaiyun.com/xeseo/artic

2015-10-26 11:22:31 446

转载 kafka

一、基本概念介绍Kafka是一个分布式的、可分区的、可复制的消息系统。它提供了普通消息系统的功能，但具有自己独特的设计。这个独特的设计是什么样的呢？首先让我们看几个基本的消息系统术语：Kafka将消息以topic为单位进行归纳。将向Kafka topic发布消息的程序成为producers.将预订topics并消费消息的程序成为consumer.Ka

2015-10-26 11:20:05 448

转载 Storm——Topoloty部署

原文地址：http://blog.youkuaiyun.com/xeseo/article/details/18219183本系列源码地址： https://github.com/EdisonXu/storm-samples根据前文介绍，我们知道，storm的任务是包装在topology类中，由nimbus提交分配到整个cluster。Topology有两种大类提交部署方式：提交到本地模式

2015-10-26 11:11:34 588

转载 Storm——可靠性（ACK原理）

转自：http://blog.youkuaiyun.com/xeseo/article/details/17754825对于Storm，它有一个很重要的特性：“Guarantee no data loss” ——可靠性很显然，要做到这个特性，必须要track每个data的去向和结果。Storm是如何做到的呢——acker机制。先概括下acker所参与的工作流程：1. Spout创建一个新的Tu

2015-10-26 11:06:39 4602

转载 Storm——spout,bolt

前言：昨天有朋友聊天说，我写的前面三篇太简单了，没有太多深入的东西。好吧，这说明我的目的达到了。我写这个系列的原因就是为了面向应用，进一步细化为两点： 1. 以例子说话，由简入深，一步步了解如何在Storm上开发应用，不会读起来吃力； 2. 对于一些原理性的东西，不去过于深究，只要记住Storm是这样实现的，开发的时候加以利用或规避。在明

2015-10-26 09:54:37 579

转载 Storm——最简单的例子

前言：本文会从如何写一个Storm的topology开始，来对Storm实现的细节进行阐述。避免干巴巴的讲理论。1. 建立Maven项目我们用Maven来管理项目，方便lib依赖的引用和版本控制。建立最基本的pom.xml如下：[html] view plaincopyprint?project xmlns="http://mav

2015-10-26 09:51:52 472

转载 Storm——集群部署

先简单的把本文要做的事罗列一下：1. 安装zookeeper集群2. 安装Storm集群，包括一个Storm的nimbus，在nimbus上启用Storm UI 和两个supervisor3. 跑一个小例子证实安装完成注：本例中，nimbus机器IP为10.1.110.24，两个supervisor分别为10.1.110.21和10.1.110.22。后文不再用通配符

2015-10-26 09:42:36 615

转载 Storm——基本概念

写在前面的话：请允许我废话几句。这个系列的文章发布的时间是在我完成了Storm的项目开发之后才找出来时间写的，在研究Storm过程中，国内较好的参考文章实在有限，大多是入门和概念剖析。Storm的GoogleGroup对于新手来说实在不友好。有经验人士都不愿意回答新手的一些“愚蠢”的问题。现在因为Storm移交了Apache，正式启用了ApacheMailGroup就更不友好了

2015-10-26 09:40:35 463

jiangjun_3567031的博客