- 博客(483)
- 资源 (14)
- 收藏
- 关注

原创 Join中on条件是null的问题讨论
MySQL [dbs]> select * from test1; +----+--------+---------+| id | stu_id | stu_age |+----+--------+---------+| 1 | 1 | 25 || 2 | 1 | NULL |+----+--------+---------+2 rows in set (0.00 sec)MySQL [dbs]> select
2020-06-24 00:00:07
2759
1

原创 Hadoop伪分布安装详解+MapReduce运行原理+基于MapReduce的KNN算法实现
本篇博客将围绕Hadoop伪分布安装+MapReduce运行原理+基于MapReduce的KNN算法实现这三个方面进行叙述。 (一)Hadoop伪分布安装1、简述Hadoop的安装模式中–伪分布模式与集群模式的区别与联系. Hadoop的安装方式有三种:本地模式,伪分布模式,集群(分布)模式,其中后两种模式为重点,有意义 伪分布:如果Hadoop对应的Java进程都运行在一个物理机器上,称为伪
2016-06-15 16:25:46
13228
5

原创 Flume架构以及应用介绍
在具体介绍本文内容之前,先给大家看一下Hadoop业务的整体开发流程: 从Hadoop的业务开发流程图中可以看出,在大数据的业务处理过程中,对于数据的采集是十分重要的一步,也是不可避免的一步,从而引出我们本文的主角—Flume。本文将围绕Flume的架构、Flume的应用(日志采集)进行详细的介绍。 (一)Flume架构介绍 1、Flume的概念 flume是分布式的日志
2016-05-31 12:35:17
97757
2
原创 Flink状态管理与恢复
Flink支持不同的重启策略,以在故障发生时控制作业如何重启,集群在启动时会伴随一个默认的重启策略,在没有定义具体重启策略时会使用该默认策略。该策略会覆盖集群的默认策略,默认的重启策略可以通过Flink的配置文件flink-conf.yaml 指定。是的,如果flink任务没有启用checkpoint,则使用无重启策略,那么当你配置了checkpoint的时候,重启策略又是怎么样的呢?后续我在用flink1.9进行测试的时候,没有看到重启的Restart的标志,但是我们可以从下面的标志看到重启的痕迹.
2023-05-27 19:57:19
1265
原创 Flink运行架构
简单来说,TaskManager会将节点上管理的资源分为不同的Slot:固定大小的资源子集。这样就避免了不同Job的Task互相竞争内存资源的问题,但是需要注意的是,Slot只会做内存的隔离,没有做CPU的隔离。KeyGroupStreamPartitioner:Hash分区器,分区字段相同的记录信息将被发送到下游的同一个task当中进行处理,所以如果数据分布不均匀,某一个key的条数比其它key多很多,将会导致数据大量的集中到某一个task节点,造成数据倾斜。
2023-03-02 10:54:49
717
原创 Flink的安装和部署--伪分布模式
Flink的安装和部署主要分为伪分布模式和集群模式:伪分布:如果Flink对应的Java进程都运行在一个物理机器上,称为伪分布模式,如果Flink对应的Java进程运行在多台物理机器上,称为集群模式.伪分布模式就是在一台服务器上面模拟集群环境,但仅仅是机器数量少,其通信机制与运行过程与真正的集群模式是一样的.Flink伪分布模式搭建过程(flink-1.10.2-bin-scala_2.11.tgz用这个即可)flink-1.7.2-bin-hadoop27-scala_2...
2022-05-01 17:59:37
763
原创 Flink的安装和部署--Standalone集群模式
Flink提供了多种集群模式,主要包括:Standalone和Flink on Yarn两种方式,Standalone是Flink的独立部署模式,它不依赖其他平台,如果想搭建一套独立的Flink集群,可以考虑使用这种模式。具体安装步骤(主节点)(flink-1.10.2-bin-scala_2.11.tgz用这个即可)flink-1.7.2-bin-hadoop27-scala_2.11.tgz 百度云地址:链接:百度网盘 请输入提取码提取码:xh10官网地址:In...
2022-03-16 10:00:51
629
原创 ES单机版安装步骤详解
本篇博客的主要目的是介绍ES单机版的安装方式。elasticsearch-5.4.3.tar.gz 百度云地址链接:https://pan.baidu.com/s/1z9yA2Ai34ZqiteMMifgx-A 提取码:y2zn官网地址:https://www.elastic.co/cn/downloads/?elektra=home&storm=heroa. tar开文件到指定的目录下面(创建软连接)tar -zxvf elasticsearch-5.4.3.tar.gz -C.
2022-02-26 16:01:01
1880
原创 Spark on yarn
参考博客:https://www.cnblogs.com/lemonu/p/13540201.htmlhttps://blog.youkuaiyun.com/huojiao2006/article/details/80563112Spark可以和Yarn整合,将Application提交到Yarn上运行,Yarn也有两种提交任务的方式。yarn-client提交任务方式配置方式:在client节点配置中spark-env.sh添加Hadoop_CONF_DIR的配置目录即可提交yarn 任务(或者在/e
2021-10-03 11:47:41
317
原创 hive安装步骤详解
hive没有集群,只是一个client工具。只需要安装在一台主机上.软件下载的地址:mysql下载安装方式地址:链接:https://pan.baidu.com/s/1ddxqAzeTDs623xOr27ZeJw 提取码:isd1hive下载地址:链接:https://pan.baidu.com/s/1bqARkuC2DGiQcswmuLVUxA 提取码:r8f0基础安装步骤a. tar开文件到指定的目录下面tar -zxvf apache-hive-2.1.1-bin.tar.gz -
2021-08-08 14:29:35
388
原创 scala入门介绍
2020年4月14日20:17:43参考官方文档:https://docs.scala-lang.org/getting-started/intellij-track/getting-started-with-scala-in-intellij.html IntelliJ是Scala开发人员最常用的IDE。在本教程中,我们将引导您完成使用Scala插件下载和设置IntelliJ的过程,并开始您的第一个Scala项目,以及单元测试!(1)Installation(安装)第一:确保你具有Java
2021-06-29 10:28:36
177
原创 IK分词器应用
本篇博客的主要目的是介绍IK分词器与ES的集成使用.IK分词器简介IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出 了3个大版本。最初,它是以开源项目Lucene为应用主体的,结合词典分词和文法分析算法的中文分词组件。新版本的IKAnalyzer3.0则发展为 面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。IK分词器3.0的特性如下:1)采用了特有的“正
2021-06-05 17:02:30
646
原创 Hive 正则匹配函数 regexp_extract和 regexp_replace和rlike
介绍一下主要的功能函数.参考:https://www.jianshu.com/p/3bcc06b1294bregexp_extract相当于python当中的re.search:遍历匹配,仅可以获取到字符串当中第一个满足匹配条件的字符串然后返回,如果没有匹配到字符串,则返回空串(re是None).group() :不管有没有分组将匹配到的结果全部拿出来,等价于group(0),返回类型为字符串,group(1):只获取第一个分组部分的结果,group(2):只获取第一个分组部分的结果.hi
2021-04-21 07:40:09
4320
原创 HIVE自定义函数--UDF函数(用户自定义函数)详解
虽然HIVE当中的函数功能很强大,但是有的时候我们需要自定义函数,今天我们介绍一个最简单的函数,UDF函数. 当Hive 提供的内置函数无法满足你的业务处理需要时,此时就可以考虑使用用户自定义函数(UDF:user-defined function).UDF:给参数计算出一个结果.参考博客:https://www.cnblogs.com/jifengblog/p/9278972.html直接进入正题,主要步骤:回到顶部UDF函数创建步骤(1)新建Java Maven项目,添加依赖123
2021-02-05 22:59:07
1689
原创 Flink中增量聚合函数和全量聚合函数的关系
在上一篇博客当中,我们对Window的整体分类即使用进行了介绍,今天我们将从另外一个角度对Window进行分类,这个角度就是聚合角度。Window的聚合操作分为2种:一种是增量聚合,另外一种是全量聚合,增量聚合是指窗口内每进入一条数据就计算一次,而全量聚合是指在窗口被触发的时候才会对窗口内的所有数据进行一次计算。(1)增量聚合常见的增量聚合函数有:reduce(reduceFunction)、aggregate(aggregateFunction)、sum()、min()、max()。增量聚合.
2020-11-28 10:03:57
2684
原创 深入理解python--线程、进程与协程(1)
(1)线程的概念线程是进程内同步执行的代码段,每个线程对应一个栈。(2)创建线程的2种方式方式1:该方式常用(通过Thread类的args参数调用线程函数)注意:线程函数传入的是元组类型,如果只有一个参数,需要加入逗号.#!/usr/bin/env python3-- coding:utf-8 --“”"author:zhang ming yang#创建线程的第一种方式.“”"from threading import Threaddef task(arg):print(arg)
2020-09-30 07:58:46
412
原创 Flink DataStream API概述(12)
代码:package chap;import org.apache.flink.api.common.functions.FilterFunction;import org.apache.flink.api.common.functions.MapFunction;import org.apache.flink.streaming.api.datastream.DataStream;import org.apache.flink.s...
2020-07-14 23:21:07
188
原创 Flink Runtime(8)-- 创建Flink项目及依赖管理
pom.xml示例文件:<!--Licensed to the Apache Software Foundation (ASF) under oneor more contributor license agreements. See the NOTICE filedistributed with this work for additional informationregarding copyright ownership. The ASF licenses this ...
2020-07-05 22:26:57
534
大数据全套视频2018.zip
2020-05-02
BookmarkSidebar(书签侧边栏插件)v1.9.0Chrome版.rar.zip
2020-05-02
Hadoop 2.2 Windows下需要的 winutils.exe
2016-06-29
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人