wangweislk-优快云博客

原创【Flink】Basic API的核心概念

目录1.DataSet and DataStream2.Anatomy of a Flink Program(Flink程序剖析)3.Lazy Evaluation（延迟执行）4.Specifying Keys（key的定义）1.Define keys for Tuples（元组键）2.Define keys using Field Expressions（字段表达式键）...

2018-12-29 15:19:54 905

原创【Flink】核心概念

目录1、Dataflow Programming Model（Dataflow编程模型）1.1、Levels of Abstraction（抽象层）1.2、Programs and Dataflows（编程和数据流）1.3、Parallel Dataflows（并行数据流图）1.4、Windows（窗口）1.5、Time（时间）1.6、Stateful Operatio...

2018-12-21 17:55:19 1382 1

原创 Storm的默认配置参数

Storm的默认参数配置：在defaults.yaml文件中https://github.com/apache/storm/blob/v1.0.6/conf/defaults.yaml java.library.path: "/usr/local/lib:/opt/local/lib:/usr/lib"### storm.* configs are general configu...

2018-10-31 09:42:58 3681

原创【Flink】Flink集群部署与YARN集成

1、Standalone软件要求：Java 1.8.x or highersshJAVA_HOME配置You can set this variable in conf/flink-conf.yaml via the env.java.home key.Flink配置：下载解压配置：conf/flink-conf.yaml

2018-01-17 10:11:47 11721 1

原创 HBase性能调优

本文就HBase的优化做一些总结，同时也借鉴了网上的一些方法，设计到从表的设计优化，读写，系统配置优化等1、表的设计优化1.1、预分区默认情况下，在创建表的时候会自动创建一个region分区，当写入数据时候，所有的HBase客户端都会往这个region写数据，直到这个region的达到设置的阈值（默认是256M，可以通过hbase.hregion.max.filesize设置）才进行s

2018-01-10 11:28:31 1363

原创【异常】SparkStreaming抛出Listener SQLListener threw an exception异常

问题描述SparkStreaming在长时间运行时，偶尔会出现下面的异常：2018-01-08 18:42:03 [ SparkListenerBus:32824468 ] - [ ERROR ] Listener SQLListener threw an exceptionjava.lang.IllegalStateException: Attempted to access ga

2018-01-09 17:41:14 3839

转载 Spark中使用kyro序列化

序列化在分布式系统中扮演着重要的角色，优化Spark程序时，首当其冲的就是对序列化方式的优化。Spark为使用者提供两种序列化方式：Java serialization: 默认的序列化方式。Kryo serialization: 相较于 Java serialization 的方式，速度更快，空间占用更小，但并不支持所有的序列化格式，同时使用的时候需要注册class。spark-sql中默

2018-01-08 10:09:33 9422 1

原创【异常】SparkStreaming长时间运行出现： Dropping SparkListenerEvent because no remaining room in event queue

问题描述在SparkStreaming任务提交后，经过长时间的运行会在SparkUI的Jobs界面出现Job的执行时间出现几个小时的情况，点进去发现Stage已经处于unkown状态，如下图：查看日志后发现下面ERROR异常：2018-01-06 16:42:03 [ dag-scheduler-event-loop:600497 ] - [ ERROR ] Dropping Sp

2018-01-08 09:49:56 4423

原创【异常】Spark写入HBase时写入DataNode失败：dfs.client.block.write.replace-datanode-on-failure.policy

问题描述：在SparkStreaming长时间写入HBase的时候，会下面的异常问题：2017-12-24 23:20:34 [ SparkListenerBus:540107357 ] - [ ERROR ] Listener EventLoggingListener threw an exceptionjava.io.IOException: Failed to replace

2017-12-25 10:46:27 6819

原创【异常】elasticsearch的RestClientAPI请求超时问题：java.lang.RuntimeException: error while performing request

问题描述：在Spark中使用elasticsearch的RestClient API在读取es中数据时，出现TimeoutException，在之前的优化的中做下面的超时设置，这个只能解决request retries exceeded max retry timeout [30000]这种超时：RestClient build = RestClient.builder(httpHosts

2017-12-19 10:00:37 39941 2

原创【异常】使用Elasticsearch的REST Client的An HTTP line is larger than 4096 bytes

问题描述：在使用Elasticsearch的RestHightClient API 去搜索ES数据，当请求的参数过长的出现下面的异常：{"type":"too_long_frame_exception","reason":"An HTTP line is larger than 4096 bytes."}，默认情况下ES对请求参数设置为4K，如果遇到请求参数长度限制可以在elasticse

2017-12-04 10:13:06 12685

原创【异常】SparkSession执行action操作时java.lang.ClassNotFoundException: org.codehaus.commons.compiler.Unchecked

org.spark_project.guava.util.concurrent.ExecutionError: java.lang.NoClassDefFoundError: org/codehaus/commons/compiler/UncheckedCompileException at org.spark_project.guava.cache.LocalCache$Segment.get(LocalCache.java:2261) at org.spark_project.guava.cach

2017-12-01 14:43:39 7276 1

原创【异常】关于使用ES的RestHighLevel JavaAPI执行search操作时，参数的问题

问题描述：在使用ES的JavaRest API 的RestHighLevelClient，执行searchRequest操作时，出现部分请求参数不能识别的情况，如下：contains unrecognized parameters: [batched_reduce_size], [typed_keys]]ElasticsearchStatusException[Elasticsea

2017-11-30 13:32:32 10821 4

原创 Spark Kafka(createDirectStream)自己管理offset

1、SparkStreaming中使用Kafka的createDirectStream自己管理offset在Spark Streaming中，目前官方推荐的方式是createDirectStream方式，但是这种方式就需要我们自己去管理offset。目前的资料大部分是通过scala来实现的，并且实现套路都是一样的，我自己根据scala的实现改成了Java的方式，后面又相应的实现。Dir

2017-10-25 12:29:24 6147 3

原创 Spark Bulkload(Java)

1、使用Spark通过Bulkload的方式导数据到Hbase在未用Bulkload写Hbase时，使用RDD进行封装为Tuple2的KVRDD，然后通过saveAsNewAPIHadoopDataset写Hbase，非常慢，400G的数据大概写了2H+还没写完，后面没有办法就考虑使用Bulkload来导入数据。在测试之前网上很多资料都是Scala版本的，并且实现都是单个列来操作，实际

2017-10-25 11:31:39 4018 1

原创 spark源码分析(2)-源码阅读环境准备

在前面介绍wordcount例子时没有对spark源码阅读环境的准备进行说明，本文就主要介绍Spark源码阅读环境的构建1、环境准备操作系统采用Ubuntu14.04（案例采用虚拟机中安装模式，桥接模式可访问外网）下载JDK1.7+，Scala2.10(spark 1.6.3之前采用的是2.10版本，spark2.0之后采用scala2.11版本)，SBT，Maven3.3.9下载

2017-03-16 11:33:30 701

原创 Spark源码分析-以wordcount为入口进行spark-submit源码分析

1、用wordcount程序进行spark源码环境准备和程序入口1）Standalone模式启动启动Master，start-master.sh输出：/home/weiw/spark-1.6.3-bin-hadoop2.6/sbin/spark-daemon.sh start org.apache.spark.deploy.master.Master 1 --ip ubuntu

2017-03-14 17:57:04 1847

原创 presto安装介绍

Presto是一个开源的分布式SQL查询引擎，适用于交互式分析查询，数据量支持GB到PB字节。

2016-03-07 10:38:38 2465

原创图数据库之neo4j-jdbc的使用

使用JDBC连接neo4j，并对数据库进行操作。与常规数据库的JDBC 连接类似。

2015-08-20 19:52:02 5828

原创图数据库之Cypher语言

1、什么是Cypher2、写（create、merge、set、delete、remove、foreach、import）3、读（match、optional match、where、start、聚合）4、常规（return、order by、limit、skip、with、unwind、union）5、函数（谓词、标准函数、集合函数、数学函数、字符串函数）

2015-08-20 15:20:53 18521

原创图数据库-Neo4j介绍与Cypher入门

1、简介Neo4j是一个高性能的,NOSQL图形数据库，它将结构化数据存储在网络上形成图谱而不是表中。Neo4j也可以被看作是一个高性能的图引擎，该引擎具有成熟数据库的所有特性，如：事务，索引等。程序员工作在一个面向对象的、灵活的网络结构下而不是严格、静态的表中——但是他们可以享受到具备完全的事务特性、企业级的数据库的所有好处。在一个图中包含两种基本的数据类型：Nodes（节点

2015-08-14 15:01:17 25894

原创 Flume+Kafka+SparkStreaming整合

目录1.Flume介绍.21.1 Flume数据源以及输出方式.21.2 Flume的核心概念.21.3 Flume结构.21.4 Flume安装测试.31.5 启动flume42.Kafka介绍.42.1 Kafka产生背景.42.2 Kafka部署结构.42.3 Kafka集群架构.42.4 Kafka基本概念.

2015-08-05 10:49:07 7197 1

原创分布式查询工具-Apache Drill

Apache Drill是一个低延迟的分布式海量数据（涵盖结构化、半结构化以及嵌套数据）交互式查询引擎，使用ANSI SQL兼容语法，支持本地文件、HDFS、Hive、HBase、MongoDB等后端存储，支持Parquet、JSON、CSV、TSV、PSV等数据格式。受Google的Dremel启发，Drill满足上千节点的PB级别数据的交互式商业智能分析场景。

2015-06-16 10:45:52 8529

概要设计说明书

软件工程开发中的概要设计说明书模板。帮助项目经理、系统分析师有效的分析系统，提高软件的开发

2013-05-05

jdbc入门通说

java中的数据库连接，jdbc及java database collection.剖析jdbc

2013-05-05

java线程同步

java学习中的线程同步问题，帮助更加深入的了解线程

2013-05-06

详细设计说明书

软件工程开发中的详细说明书说明书模板。帮助项目经理、系统分析师有效的分析系统，提高软件的开发，更是软件开发中最详细的开发文档，基本解决系统的大部分问题。

2013-05-05

java问题集

java学习者大多数都要面临一些java问题，能更加深入理解java

2013-05-09

android全程学习笔记

android全程学习笔记，更加详细，更全面，包含整个android开发中用到的技术要点和实例。

2014-03-17

Apache Drill技术手册

第一部关于Apache Drill的技术文档，该文档属于作者自行整理文档资料，如果误差请谅解。

2015-06-08

neo4j-jdbc相关jar

图存储数据-neo4j-JDBC连接使用的相关jar包，已经经过测试完全无问题。

2015-08-20

程序员养生之道

对于程序员的养生问题的关注，帮助程序员提高身体健康

2013-05-05

可行性研究报告

软件工程开发中的可行性研究报告模板。帮助项目经理、系统分析师有效的分析系统，提高软件的开发

2013-05-05

浅析MD5算法

随着网络技术的广泛应用，网络信息安全越来越引起人们的重视。针对数据在存储的时候存在大量的安全问题，目前通常将需要存储的数据进行加密然后再存储，应用MD5算法是一个不错的选择。MD5算法的全称是Message-Digest algorithm 5，是一种用于产生数字签名的单项散列算法。它的作用是让大容量信息在用数字签名软件签署私人密钥前被“压缩”成一种保密的格式，即将一个任意长度的“字节串”通过一个不可逆的字符串变换算法变换成一个128bit的串。

2013-05-05