CODE男孩-优快云博客

转载在Java中更好的调用Python

写在前面在微服务架构大行其道的今天，对于将程序进行嵌套调用的做法其实并不可取，甚至显得有些愚蠢。当然，之所以要面对这个问题，或许是因为一些历史原因，或者仅仅是为了简单。恰好我在项目中就遇到了这个问题，需要在Java程序中调用Python程序。关于在Java中调用Python程序的实现，根据不同的用途可以使用多种不同的方法，在这里就将在Java中调用Python程序的方式做一个总结。直接通过...

2019-10-31 14:31:09 1183

转载关于JedisCluster不支持Pipeline操作的解决方案

版权声明：本文为博主原创文章，遵循 CC 4.0 by-sa 版权协议，转载请附上原文出处链接和本声明。本文链接：https://blog.youkuaiyun.com/EndTheme_Xin/article/details/84623063一、背景业务需要，把redis单结点改为集群，在对代码进行测试的时候发现了，原本使用jedis的批量操作pipeline，到了集群的时候不可用了。报了org.sp...

2019-08-16 22:18:06 2051

原创 opentsdb添加kerberos认证

1.编辑启动脚本 cat start_tsdb.shOPENTSDB_HOME=/data/opentsdbJVMARGS="${JVMARGS} -Djava.security.auth.login.config=${OPENTSDB_HOME}/jaas.conf -Dzookeeper.sasl.client=false" ./tsdb tsd --config=${OPENTSDB...

2019-07-02 11:46:39 992

原创自定义 Spark application 监听器进行task异常处理 JAVA版

最近要截取sparkHistory里面application的运行日志，发现task级别的某些日志拿不到，后来想了个办法搞监听器，然后一点点学习，将经验记录下来。在spark程序中，task有失败重试机制（根据 spark.task.maxFailures 配置，默认是4次），当task执行失败时，并不会直接导致整个应用程序down掉，只有在重试了 spark.task.maxFailures ...

2019-02-15 16:25:12 1550

原创 impala故障（cdh5.15.1版本）

今天碰到一个很奇怪的问题，impala查询34亿条数据报错，不过多亏网上有神仙相助，少了一个插件，具体原因有待思考，，，问题是原创的，解决方案是大神提供的[cdh004:21000] > select count(*) from impala_100yi;Query: select count(*) from impala_100yiQuery submitted at: 2019-...

2019-02-14 16:11:02 1771 1

原创 kudu锦集

https://blog.youkuaiyun.com/weixin_39478115/article/category/7275004

2018-12-13 18:29:39 273

转载【秒懂StructuredStreaming】手把手教你写StructuredStreaming + Kafka程序

这篇博客我们介绍基于StructuredStreaming进行实时流算子开发，并将结果输出到kafka中。 StructuredStreaming使用的数据类型是DataFrame和Dataset。从Spark 2.0开始，DataFrame和Dataset可以表示静态（有界数据），以及流式（无界数据）。与静态Dataset/ DataFrame类似，用户可以使用公共入...

2018-09-30 14:33:24 2030

转载【秒懂StructuredStreaming】StructuredStreaming是何方神圣

目录一、为何要有StructuredStreaming二、StructuredStreaming的特性1、结构化流式处理2、基于Event-Time聚合&延迟数据处理3、容错性Structured Streaming是Spark新提出的一种实时流的框架，以前是Spark Streaming。那么这两者有什么区别呢，为什么有了Spark Streaming，还要提出S...

2018-09-30 14:31:38 1112

转载高性能Spark作业基础：你必须知道的调优原则及建议

在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。然而，通过Spark开发出高性能的大数据计算作业，并不是那么简单的。如果没有对Spark作业进行合理的调优，Spark作业的执行速度可能会很慢，这样就完全体现不出Spark作...

2018-08-31 11:58:08 681

转载 impala与hive的比较以及impala的有缺点

最近读的几篇关于impala的文章，这篇良心不错：https://www.biaodianfu.com/impala.html（本文截取部分内容） Impala是Cloudera公司主导开发的新型查询系统，它提供SQL语义，能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义，但由于Hive底层执行使用的是MapReduce引...

2018-08-10 10:14:35 2213 3

转载使用spring-boot-admin对spring-boot服务进行监控

原文：http://www.cnblogs.com/ityouknow/p/8440455.html Spring Boot Actuator提供了对单个Spring Boot的监控，信息包含：应用状态、内存、线程、堆栈等等，比较全面的监控了Spring Boot应用的整个生命周期。但是这样监控也有一些问题：第一，所有的监控都需要调用固定的接口来查看，如果全面查看应用状态需要调用很多接...

2018-07-20 10:41:14 604

原创 spark streaming 广播变量的测试

最近写的一个流式的程序需要从redis 中获取变量信息，并广播，其中redis里面的信息是变动的，要求广播变量也要跟着改变，下面是测试代码：val dStream = KafkaUtils.createDirectStream[String, String]( ssc, PreferConsistent, Subscribe[String, String](topic...

2018-07-16 11:07:52 682

转载 Spark运行架构(Good)

转自与https://note.youdao.com/share/?id=7fc41e362e86a863a84e787573433a76&type=note#/1、 Spark运行架构1.1 术语定义lApplication：Spark Application的概念和Hadoop MapReduce中的类似，指的是用户编写的Spark应用程序，包含了一个Driver 功能的代码和分布在集...

2018-07-06 14:23:04 476

原创 Spark2.3.0 结构化流进行streaming+kafka的可操作算子流

工作上正在进行Streaming算子的研究学习，需要做到在流的基础上，通过kafka接收数据到中间若干的计算算子，再到最后的输出。开始使用传统的streaming+kafka，但由于无法返回后续使用的dataset，只能放弃，后来大牛提出永spark的结构化流处理，于是经过参考文档资料编写了一个可以进行过程处理的streaming处理流程。(只有与主题相关的代码，其余设计工作的没贴，看看实现思...

2018-07-03 11:27:07 1165

原创 spring-sparkstreaming-kafka10集成实现以及可能出现的部分问题（DirectKafkaInputDStream 无法序列化）

本文所研究的spark-streaming代码版本为2.3.0-SNAPSHOT spark-streaming为了匹配0.10以后版本的kafka客户端变化推出了一个目前还是Experimental状态的spark-streaming-kafka-0-10客户端，由于老的0.8版本无法支持kerberos权限校验，需要研究下spark-streaming-kafka-0-10的源码实现以及系统架...

2018-07-02 10:43:24 4566

原创 java8下spark-streaming结合kafka编程（spark 2.3 kafka 0.10）

前面有说道spark-streaming的简单demo，也有说到kafka成功跑通的例子，这里就结合二者，也是常用的使用之一。1.相关组件版本首先确认版本，因为跟之前的版本有些不一样，所以才有必要记录下，另外仍然没有使用scala,使用java8,spark 2.0.0,kafka 0.10。2.引入maven包网上找了一些结合的例子，但是跟我当前版本不一样，所以根本就成功不了，所以探究了下，...

2018-06-28 14:23:11 10692 2

原创 java8实现spark streaming的wordcount

概念这里就不说了，从案例开始，惯例，hellowrod，哦不，wordcount。要计算从一个监听 TCP socket 的数据服务器接收到的文本数据（text data）中的字数。主体代码部分跟spark相差不大，毕竟DStream是RDD产生的模板（或者说类）。1.导入了 Spark Streaming 类 <dependency> <groupId&gt...

2018-06-28 14:17:25 1869

原创 Streaming学习

Streaming官方文档

2018-06-28 14:16:53 374

原创 kafka初探版本0.10 java编程

之前对kafka的了解其实仅限于知道它是一个分布式消息系统，这次详细了解了下，知道了一些关键概念(topic主题、broker服务、producers消息发布者、consumer消息订阅者消费者)，具体网上一大堆，这里不赘述，直接开始代码。1.引入包 <dependency> <groupId>org.apache.kafka</groupId&...

2018-06-28 14:13:27 1150

转载 Influxdb原理详解

本文属于《InfluxDB系列教程》文章系列，该系列共包括以下 18 部分：InfluxDB系列学习教程目录InfluxDB学习之InfluxDB的安装和简介InfluxDB学习之InfluxDB的基本概念InfluxDB学习之InfluxDB的基本操作InfluxDB学习之InfluxDB的HTTP API写入操作InfluxDB学习之InfluxDB数据保留策略（Retention Polic...

2018-06-27 08:57:52 2351

原创基于scala的OpenTSDB的查询（参考JAVA版的OpenTSDB API）

OpenTSDB提供三种方式的读写操作：telnet、http、post，但官方并没提供JAVA版的API。多亏有开源贡献者“shifeng258”，他用java编写了 opentsdb-client ，才使得我们能对openTSDB的读写操作进行封装，下面是JAVA版参考资料https://my.oschina.net/HuQingmiao/blog/701145而我因项目原因，用的...

2018-05-18 17:00:31 1714

转载 OpenTSDB 查询示例

构造数据开启本地安装的opentsdb服务，首先构造一段数据，一共8个点，插入OpenTSDB，代码如下：# coding:utf-8import requestspayload = { "metric": "sys.cpu.data", "timestamp": '1490586540', "value": '29', "tags": { ...

2018-05-16 17:44:01 5041

转载 OpenTSDB介绍——基于Hbase的分布式的，可伸缩的时间序列数据库，而Hbase本质是列存储

OpenTSDB介绍1.1、OpenTSDB是什么？主要用途是什么？官方文档这样描述：OpenTSDB is a distributed, scalable Time Series Database (TSDB) written on top of HBase；翻译过来就是，基于Hbase的分布式的，可伸缩的时间序列数据库。主要用途，就是做监控系统；譬如收集大规模集群（包括网络设备、操作系统、应用...

2018-05-16 17:15:27 6304

原创针对setBatch() 与filter 不兼容对Hbase Scan 主要流程分析

Hbase Scan 流程分析在使用Hbase查询时，发现了这样一段public void setBatch(int batch) { if(this.hasFilter() && this.filter.hasFilterRow()) { throw new IncompatibleFilterException("Cannot set batch on ...

2018-05-14 14:23:20 1628 1

转载 Hbase - 比较器、过滤器、过滤器的操作符

过滤器的操作符LESS <LESS_OR_EQUAL <=EQUAL =NOT_EQUAL <>GREATER_OR_EQUAL >=GREATER >NO_OP no operation1234567比较器BinaryComparator 按字节索引顺序比较指定字节数组，采用Bytes.compareTo(byte[])BinaryPrefi...

2018-05-11 13:19:11 1061

转载 HBase Scan类用法

public static void main(String[] args) throws IOException { //Scan类常用方法说明 //指定需要的family或column ，如果没有调用任何addFamily或Column，会返回所有的columns； // scan.addFamily(); /...

2018-05-11 13:04:27 2768

转载 Spark JDBC For example Mysql

mysql jdbc driver下载地址https://dev.mysql.com/downloads/connector/j/在spark中使用jdbc1.在 spark-env.sh 文件中加入:export SPARK_CLASSPATH=/path/mysql-connector-java-5.1.42.jar2.任务提交时加入:--jars /path/mysql-connector-...

2018-05-07 15:22:09 677

原创 JDBC创建mysql树函数

最近在写多维计算的东西，需要支持mysql的数据库，mysql跟oracle和PG不同，简直特立独行，不支持窗口函数，也没有封装好的树函数，没办法只好百度加自己造。总算造出来一个小树，哈哈，然后紧接着碰到了JDBC创建mysql函数问题，试了几回发现是mysql的函数提的问题，我之后拆开运行。以下是代码总结，希望能帮到以下有同样困难的孩子，，不足之处请指出！首先是根绝子节点进行寻根的树结构，可以在...

2018-05-04 17:50:06 465

原创 MyBatis之databaseIdProvider多数据库支持

一、databaseIdProvider官方描述MyBatis 可以根据不同的数据库厂商执行不同的语句，这种多厂商的支持是基于映射语句中的 databaseId 属性。 MyBatis 会加载不带 databaseId 属性和带有匹配当前数据库 databaseId 属性的所有语句。如果同时找到带有 databaseId 和不带 databaseId 的相同语句，则后者会被舍弃。这里什么意思呢...

2018-05-02 11:15:48 4234 2

转载实现PostgreSQL自启动

在手动安装（针对源码编译PG或者是解压缩版安装PG的情形）情况下，PG并不是在开机的情况下自动启动，在关机的情况下自动停止，作为DBA人员来说，显然这样的情形是无法接受的。1. windows下的服务自启动在Windows下，可以使用pg_ctl命令生成PostgreSQL服务，并让它自启动。实际上，安装版本也是这么做的。我们不妨看看pg_ctl命令的详细帮助先：[cpp] view pla...

2018-04-28 11:35:24 4364

转载 MySQL和PostgreSQL 对比

一、MySQLMySQL 在所有大型数据库服务器中最流行的一个. 它的特性丰富，产品的开源性质使得其驱动了线上大量的网站和应用程序. 要入手 MySQL 相对简单，开发人员可以在互联网上面访问到大量有关这个数据库的信息.注意: 由于这个产品的普及性，大量的第三方应用、工具和集成库对于操作这个RDBCMS的方方面面大有帮助.Mysql没有尝试去实现SQL标准的全部，而是为用户提供了很多有用的功能. ...

2018-04-28 11:12:00 3596

原创 Windows下Postgresql数据库的下载与配置方法

注意下载的是二进制版，不是带Windows Installer的。http://www.enterprisedb.com/products-services-training/pgbindownloadx86下载http://get.enterprisedb.com/postgresql/postgresql-10.3-3-windows-binaries.zipx64下载http://get.e...

2018-04-28 10:38:03 1061

转载 Spark性能优化指南——基础篇

前言在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。在美团•大众点评，已经有很多同学在各种项目中尝试使用Spark。大多数同学（包括笔者在内），最初开始尝试使用Spark的原因很简单，主要就是为了让大数据计算作业的执行速度更快、...

2018-04-19 10:09:28 218

转载 spark RDD中foreachPartition和foreach说明

主题：RDD的foreachPartition/foreach的操作说明：这两个action主要用于对每个partition中的iterator时行迭代的处理.通过用户传入的function对iterator进行内容的处理.一、foreach的操作:foreach中,传入一个function,这个函数的传入参数就是每个partition中,每次的foreach得到的一个rdd的kv实例,也就是具体...

2018-04-19 10:08:52 4768 1

原创 OVER(PARTITION BY)函数介绍

问题场景　　　　最近在项目中遇到了对每一个类型进行求和并且求该类型所占的比例，当时考虑求出每种类型的和，并在java中分别对每一种类型的和与总和相除求出所占比例。后来，想到这样有点麻烦，并且项目中持久层使用的是iBatis框架，所有考虑从SQL方面进行入手来简化这个问题。　　后来SQL的解决方法就为：1 SELECT T.CHANNEL AS PATTERN,2 COUNT(T.T...

2018-04-17 09:27:13 6464

转载 SparkSQL编程指导

1. OverviewSpark SQL是spark提供的一个结构化数据处理模块。Spark提供的SparkSQL接口主要是针对数据的结构化及其计算，并针对这些方面做了大量的优化处理。SparkSQL提供了两种方式来让我们操作结构化数据：SQL和Dataset API。2. SQLSparkSQL可以直接执行sql查询，Spark SQL也可以从已经存在的hive中读取数据（关于这部分的配置在...

2018-04-09 18:09:27 298

原创 Redis-sentinel哨兵模式集群方案配置

最近研究了redis的集群方案，第一个方案是创建 redis cluster，第二种方案就是用哨兵模式来进行主从替换以及故障恢复。一、sentinel介绍Redis Sentinel Sentinel(哨兵)是用于监控redis集群中Master状态的工具，其已经被集成在redis2.4+的版本中Sentinel作用： 1)：Master状态检测 2)：如果Master异常，则会进行Master-...

2018-03-27 18:30:54 966

原创安装RVM失败： public key not found

错误是这样的：[plain] view plain copy $ curl -L get.rvm.io | bash -s stable --ruby % Total % Received % Xferd Average Speed Time Time Time Current Dload Up...

2018-03-27 11:33:09 1127

转载 redis requires Ruby version >= 2.2.2问题

yum -y install ruby ruby-devel rubygems rpm-buildgem install redis其中 gem install redis命令执行时出现了： redis requires Ruby version >= 2.2.2的报错，查了资料发现是Centos默认支持ruby到2.0.0，可gem 安装redis需要最低是2.2.2解决办法是先安装rv...

2018-03-27 11:32:26 826

转载 Linux Redis集群搭建与简单使用

介绍安装环境与版本用两台虚拟机模拟6个节点，一台机器3个节点，创建出3 master、3 salve 环境。redis 采用 redis-3.2.4 版本。两台虚拟机都是 CentOS ，一台 CentOS6.5 （IP:192.168.31.245），一台 CentOS7（IP:192.168.31.210）。安装过程1. 下载并解压123cd /root/softwarewget http:...

2018-03-27 11:31:28 271

smartGit8.0.4操作文档

SSO单点登录

空空如也