knowfarhhy-优快云博客

原创 Flink SQL JDBC你踩过的坑

Flink SQL JDBC你踩过的坑

2022-03-26 12:45:56 6102

近些天在微信群里经常看小伙伴问到“机器学习如何入门，看哪些资料 ?”，于是乎想根据笔者学习两年多的学习经验，介绍下机器学习如何入门，该看哪些资料？下面我将从以下几个方面整理机器学习入门的资源：（1）语言：机器学习中常用的语言。（2）书籍：书中自有黄金屋，机器学习中涉及到的很多数学理论，只看视频或者博客是很难获取到完整的知识框架。（3）视频：书中有些公式推导很难理解，可以看看大牛们深入浅出的课程。（4）博客：经常看一些大牛们的分享，对于扩展知识面具有一定的帮助。（5）比赛：实践是检验学习成果重要标准

2022-02-26 17:41:16 329

原创 IO模型的分类、特点、代码展示

01 IO模型从TCP发送数据的流程说起要深入的理解各种IO模型，那么必须先了解下产生各种IO的原因是什么，要知道这其中的本质问题那么我们就必须要知一条消息是如何从过一个人发送到另外一个人的；以两个应用程序通讯为例，我们来了解一下当“A”向"B" 发送一条消息，简单来说会经过如下流程：第一步：应用A把消息发送到 TCP发送缓冲区。第二步： TCP发送缓冲区再把消息发送出去，经过网络传递后，消息会发送到B服务器的TCP接收缓冲区。第三步：B再从TCP接收缓冲区去读取属于自己的数据。IO模型就是

2022-02-20 17:36:03 651

原创 Java+Flink等面试汇总一：

为了更好的帮助大家面试，这里整理汇总了面试的相关书籍和文档。面试书籍：Flink学习面试灵魂40问答案：https://cloud.tencent.com/developer/article/1506784程序员面试手册链接:https://pan.baidu.com/s/1oV7RkzmXs9x43KS499qVcg 提取码:edfc阿里云技术面试红宝书链接:https://pan.baidu.com/s/1K2x1cWn0qRK8tadKDN_nAA 提取码:nnbbAbout云面试

2022-02-08 10:05:51 1202

转载 Flink 实现自定义滑动窗口

背景一般情况下 Flink 提供的窗口可以满足我们大部分的场景，但是有时候我们需要计算一个固定时间范围内的数据，比如实时计算每天凌晨到第二天凌晨的数据，或者每天上午 7 点到第二天上午 7 点。类似于这种情况 Flink 默认提供的窗口是不支持的，因为 Flink 计算窗口的开始时间和结束时间是根据数据本身携带的时间戳然后把数据划分到不同的窗口的，所以它不是一个固定的范围。这个时候就需要我们自己实现窗口划分的逻辑。Flink 提供了 WindowAssigner 抽象类，我们只需要实现 assignWin

2022-02-08 09:52:55 1149

原创 flink-redis-connector实现

分享一个项目flink-redis-connector，功能如下：支持Flink SQL写Redis支持Flink SQL读Redis维表（高时效性&提供缓存，非定期全量load的all cache方式）一：维表方式create table histalarmDim( metricKey varchar, histalarmData ARRAY< varchar >) with ( 'connector' = 'redis',

2022-02-08 09:42:24 3437 2

原创使用正则匹配去掉SQL文本中的注释

如何去掉SQL中的注释，其中注释包含了/***///等格式： Pattern p = Pattern.compile("(?ms)('(?:''|[^'])*')|--.*?$|//.*?$|/\\*.*?\\*/|#.*?$|"); String presult = p.matcher(sql).replaceAll("$1"); System.out.println(presult);...

2021-09-26 19:31:51 2642 3

转载排序总结介绍

Sort-SummaryAuthor: liyazhou Github: li-yazhou Repo: https://github.com/li-yazhou/algorithm-primer email: xcliyazhou@163.com 排序冒泡排序选择排序插入排序希尔排序归并排序快速排序堆排序排序排序算法分类插入排序：直接插入、希尔排...

2020-01-14 15:27:26 259

原创 Flink自定义TableSink TableSource

基本知识TableSource提供了从外部系统（消息队列，KV存储，数据库，文件系统等）接入数据，之后注册到TableEnvironment中，然后可以通过Table API或者SQL进行查询。TableSink提供了将flink内部注册的Table中的数据写出到外部系统（Es ,Hbase ,消息队列数据库，文件系统等）。TableFactory用来创建TableSource 、Table...

2019-10-14 22:43:47 3999 2

原创 java & scala编译打包配置

<build> <sourceDirectory>src/main/scala</sourceDirectory> <plugins> <plugin> <groupId>org.scala-tools</groupId&gt...

2019-09-19 12:59:52 365

原创 flink内置函数

flink内置函数flink支持的字符串函数：string1 || string2 : 两个字符串串联CHAR_LENGTH(string) / CHARACTER_LENGTH(string) ：返回字符串字符长度UPPER(string) ：返回大写格式的字符串LOWER(string) ：返回小写格式的字符串POSITION(string1 IN string2) ：返回s...

2019-09-19 10:10:05 20750 4

原创 Fllink table 使用过程中无法找到TableFactory的子类如KafkaSourceSinkFactory StreamTableSourceFactory等

我正在使用flink表api，使用kafka作为输入源，使用json作为表模式。提交程序时出现此错误：`程序完成以下异常：org.apache.flink.client.program.ProgramInvocationException: The main method caused an error.at org.apache.flink.client.program.PackagedP...

2019-09-12 11:44:47 6703 3

翻译如何在 Flink 1.9 中使用 Hive？

Apache Flink 从 1.9.0 版本开始增加了与 Hive 集成的功能，用户可以通过 Flink 来访问 Hive 的元数据，以及读写 Hive 中的表。本文将主要从项目的设计架构、最新进展、使用说明等方面来介绍这一功能。Flink on Hive 介绍SQL 是大数据领域中的重要应用场景，为了完善 Flink 的生态，发掘 Flink 在批处理方面的潜力，我们决定增强 FlinkS...

2019-09-09 23:42:23 340

翻译 Flink Time & Window 解析

一、Window & Time 介绍Apache Flink（以下简称 Flink）是一个天然支持无限流数据处理的分布式计算框架，在 Flink 中 Window 可以将无限流切分成有限流，是处理有限流的核心组件，现在 Flink 中 Window 可以是时间驱动的（Time Window），也可以是数据驱动的（Count Window）。下面的代码是在 Flink 中使用 Win...

2019-08-28 15:14:02 462

翻译 Apache Flink 1.8.0 中的状态生存时间特性：如何自动清理应用程序的状态

对于许多状态流式计算程序来说，一个常见的需求是自动清理应用程序的状态（state），以便有效地控制状态大小，或者控制程序访问状态的有效时间（例如受限于诸如GDPR等法律条规）。Apache Flink 自 1.6.0 版本引入了状态的生存时间（time-to-live，TTL）功能，使得应用程序的状态清理和有效的状态大小管理成为可能。在本文中，我们将讨论引入状态生存时间特性的动机并讨论其相关用例...

2019-08-21 18:17:56 1152

原创 Datax大致的一个流程，持续完善！

2019-06-11 20:56:37 691

原创解决KafkaConsumer多线程接入不安全问题（spark streaming 消费kafka）

使用场景：设置并行度参数spark.streaming.concurrentJobs >1 时候，使用spark streaming消费kafka异常信息：There may be two or more tasks in one executor will use the same kafka consumer at the same time, then it will throw...

2019-06-01 22:37:59 4941 4

原创 spark2.4开始支持image图片数据源操作！！

使用 val df = spark.read .format("image") .option("dropInvalid", true) .load("data/mllib/images/origin/kittens") df.select("image.origin", "image.width", ...

2019-05-28 23:19:37 3096 5

原创记一次spark源码的bug排查,顺便简单看一下spark sql底层引擎catalyst处理的流程

场景：hive中事先创建好分区表test_table_name，然后通过spark streaming任务处理数据，将rdd转为dataframe后写hive。具体出错代码val result = sparkSession.createDataFrame(rdd, schema)result.write.mode("append").format("hive").partitionBy...

2019-05-25 13:04:09 2833 7

原创 checkpoint中保存了什么内容，理论与实践分析

https://github.com/hehuiyuan/myNote/blob/master/spark/checkpoint-understand.md直接看原文吧，不想在写一遍了，主要涉及到图片，上传好麻烦的感觉！这里写个开头介绍，详细的看链接里面内容～！针对spark streaming介绍checkpoint保存了什么？比如checkpoint会把Checkpoint对象保存到ch...

2019-05-23 15:27:44 3150

原创初学flink ---PageRank例子学习

import java.lang.Iterableimport org.apache.flink.api.common.functions.GroupReduceFunctionimport org.apache.flink.api.java.aggregation.Aggregations.SUMimport org.apache.flink.api.java.utils.Paramet...

2019-05-15 11:27:01 523

原创针对初学者快速上手docker,安装并且简单使用mongo例子

运行环境macbookdocker安装https://www.docker-cn.com有社区版有企业版博主使用的是社区版并且是for mac的，自行选用。安装完成后,打开docker desktop for Mac，点击preferences，修改镜像地址，参考镜像加速地址：https://www.docker-cn.com/registry-mirror在这里我使用了修改如...

2019-04-20 22:54:16 526

原创 superset安装教程

py3.7安装首先，macbook 是自带 python 2.7 的，如果觉得够用，直接在终端输入 python 就能进入 python 编译模式；如果想安装最近版本，就继续往下看教程直接使用 homebrew 来安装： brew install python3安装完成之后，在命令行执行 python3 就可以看到 phthon 3.7.1 版本在运行了。但是这样的话，默认的 pyth...

2019-03-29 12:46:19 2622

原创 Elasticsearch-spark 源码解析 ---savetoEs

使用例子object Save2EsLocalTest { def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppName("save2eslocal").setMaster("local[*]") conf.set("spark.streaming.stopGracefullyO...

2019-01-25 15:51:38 6303

原创 spark on yarn 任务提交流程

2018-12-20 18:41:36 1411

翻译伯克利开源Confluo：吞吐量比Kafka高4到10倍！

原文链接使用文档链接源码链接confluo是用于多个数据流实时分布式分析的系统，Confluo 通过为多数据流的一些专门应用场景而精心设计的数据结构和针对端到端而优化的系统设计实现了高吞吐量并发写入、毫秒级在线查询和高效的即时查询。我们很高兴将 Confluo 作为一个开源 C++ 项目，其中包括：Confluo 的数据结构库，支持高吞吐量日志摄入，以及各种在线（实时聚合、条件触发器执...

2018-12-15 09:12:52 1437

原创 hadoop集群搭建及其组件介绍和目录规划

搭建HADOOP-HA集群集群角色分配角色描述角色IP兼职兼职描述NN1NameNode节点ip-nn1rmResourceManagerNN2NameNode节点ip-nn2his-serverJobHistoryServerJN1JournalNode节点ip-jn1DN/NMDataNode/NodeManagerJN2...

2018-12-07 18:43:51 860

原创 spark metrics文章整理

spark metrics文章整理官网中文翻译，有助于理解spark metrics基本使用案例展示自定义influxdbsinker自定义kafkasinkerjmxtrans监控spark jvm 通过grafana展示

2018-11-27 17:58:48 386

原创 structured -streaming -kafka源码分析

structured streaming支持四种input sources分别为File source 、Kafka source 、Socket source (for testing)和Rate source (for testing) 。本文主要介绍Kafka source，从kafka读取数据，兼容 kafka broker版本0.10+。&amp;lt;dependency&amp;gt;...

2018-09-02 16:05:11 1246

原创 spark on kubernets 学习中---遇到的比较好的文章地址

spark on k8s试用spark on k8s基本概念，后期准备翻译出来

2018-08-29 22:56:12 588

转载 HBase中RegionServer宕机恢复介绍

HBase采用类LSM的架构体系，数据写入并没有直接写入数据文件，而是会先写入缓存（Memstore），在满足一定条件下缓存数据再会异步刷新到硬盘。为了防止数据写入缓存之后不会因为RegionServer进程发生异常导致数据丢失，在写入缓存之前会首先将数据顺序写入HLog中。如果不幸一旦发生RegionServer宕机或者其他异常，这种设计可以从HLog中进行日志回放进行数据补救，保证数据不丢失。...

2018-08-18 00:29:43 3368

原创 docker安装及其使用（基于ubuntu）----陆续会补充更多内容

检查自己系统的内核版本，使用较早的内核的系统可以更新 uname -a更新系统内核版本 sudo apt-get update重启 sudo reboot检查存储驱动device-mapper是否安装 ls -l /sys/class/misc/device-mapper 或者 sudo grep device /proc/devic...

2018-08-12 13:56:40 305

转载 redis基础介绍及其常见问题

为什么分布式一定要有Redis？考虑到绝大部分写业务的程序员，在实际开发中使用 Redis 的时候，只会 Set Value 和 Get Value 两个操作，对 Redis 整体缺乏一个认知。所以我斗胆以 Redis 为题材，对 Redis 常见问题做一个总结，希望能够弥补大家的知识盲点。本文围绕以下几点进行阐述：为什么使用 Redis使用 Redis 有什么缺点单线程的 Re...

2018-07-21 11:12:17 853

转载 kubernets(k8s) 京东最新容器应用报告

本文根据6月28日Rancher Labs举办的Container Day 2018容器技术大会上京东基础架构部技术总监、集群技术部负责人鲍永成的演讲整理而成。在过去一年里，Kubernetes以其架构简洁性和灵活性，流行度持续快速上升，我们有理由相信在不远的未来，Kubernetes将成为通用的基础设施标准。而京东早在2016年年底上线了京东新一代容器引擎平台JDOS2.0，成功从Ope...

2018-07-14 09:19:35 1105

原创 ubuntu系统安装qq 微信 exe程序通过 wine 的使用

linux系统为了支持安装windows上面的exe软件，提供了wine。博主之前使用了crossover但是没有找到破解版，用了一段时间就卸载了，安装qq有时候也会有一些问题，安装crossover容器里面非自带的软件，总会遇见问题，我安装了公司的一个exe软件，总是运行不起来。今天加班，来到了公司，看着ubuntu系统，然后深深感觉有的软件web版使用不习惯，比如qq 微信等，然...

2018-06-10 16:31:50 4907

转载优快云-markdown编辑器

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来，用它写博客，将会带来全新的体验哦：Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I...

2018-06-10 16:15:16 211

翻译计算机视觉四大基本任务的应用知识分享

计算机视觉分享（2017年腊八）介绍一篇论文：旨在介绍深度学习在计算机视觉领域四大基本任务中的应用，包括分类(图a)、定位、检测(图b)、语义分割(图c)、和实例分割(图d)。作者简介张皓：南京大学计算机系机器学习与数据挖掘所（LAMDA）硕士生，研究方向为计算机视觉和机器学习，特别是视觉识别和深度学习。个人主页http://lamda.nju.edu.cn/zhangh/。

2018-01-24 15:57:54 13962 1

原创 SPARK的线性代数库BLAS

spark中的BLAS中引入了两个包import com.github.fommil.netlib.{BLAS => NetlibBLAS, F2jBLAS}import com.github.fommil.netlib.BLAS.{getInstance => NativeBLAS}因为private[spark] object BLAS extends Serializable with Lo

2017-12-08 20:31:50 3636 1

原创 Spark特征处理之RFormula源码解析

spark中RFormula源码解读简单介绍RFormula通过R模型公式来操作列。介绍了 RFormula的使用介绍了部分源码

2017-12-06 14:04:38 1815 3

原创 Spark MLlib中基于DataFrame的 pipeline介绍

一基本重要概念解释1.1 管道中的主要概念MLlib对机器学习算法的API进行了标准化，使得将多种算法合并成一个pipeline或工作流变得更加容易。Pipeline的概念主要是受scikit-learn启发。DataFrame：这个ML API使用Spark SQL 的DataFrame作为一个ML数据集，它可以容纳各种数据类型。例如，a DataFrame具有可以存储文本，特征向量，真实标签

2017-12-02 14:19:02 1675

spark mllib特征使用案例讲解

jv m理解以及调优

基于 Spark 的矩阵分解推荐算法

计算机毕业设计开题报告+任务书+外文翻译+论文模板

mysql软件下载

空空如也