Shall潇-优快云博客

原创 Hive的安装和配置

【前言】确保当前机器上装有可用的mysql,没有的可以参考这篇文章：点这里文章目录一、安装二、创建Hive本地文件夹三、配置环境变量四、配置文件五、启动一、安装tar -zxvf hive-1.1.0-cdh5.14.2.tar.gzmv 改名二、创建Hive本地文件夹进入hive目录mkdir warehouse三、配置环境变量vi /etc/profile添加export HIVE_HOME=/opt/soft/hiveexport PATH=$HIVE_HOME/bin:

2021-03-26 11:30:57 538

原创 Yarn---工作机制

Yarn执行过程看不懂？不要紧，来看下面的例子

2021-03-23 16:21:16 230

原创 MapReduce

文章目录MapReduce官方执行过程一、MapReduce1、pom文件2、MR代码二、配置log4jMapReduce官方执行过程数据倾斜：数据分配到各个节点的量不平衡，有的很少，有的很多分片：当后一个块大小小于10%，会合并到前一块一、MapReduce1、pom文件<dependencies> <dependency> <groupId>junit</groupId> <artifactId>j

2021-03-23 15:21:51 302 1

原创 Hadoop高可用安装与配置

【前言：提前安装好Hadoop的集群模式】文章目录一、配置文件二、启动Journalnode三、删除tmp和logs文件夹四、HDFS格式化五、同步元数据（分发tmp文件给从机）五、启动namenode六、初始化Zookeeper七、全部开启八、测试一、配置文件1、core-site.xml<configuration><property> <name>fs.defaultFS</name> <value>hdfs://hadoo

2021-03-22 18:47:43 461 2

原创 Hadoop伪分布式安装

Linux上安装Hadoop前言：提前做好以下两样事情1、网络设置好，防火墙关掉2、Java安装好，环境变量配好一、下载并解压1.将这两个安装包上传到Linux上2.解压缩tar -zxvf hadoop-2.6.0-cdh5.14.2.tar.gzmv hadoop-2.6.0-cdh5.14.2 hadoop：重命名二、修改Hadoop配置文件三、配置环境变量四、格式化HDFS五、启动Hadoop六、实例...

2021-03-13 20:50:30 365 3

原创 Spark学习——不同模式下执行脚本

举个简单的例子：使用spark官方用例"取pi值"

2024-06-11 17:09:05 738

原创 hadoop上文件下载不了如何解决

【背景】我在centos 7 环境下刚安装好 hadoop3.0, 运行完 wordcount例子，想看一下数据结果，但是点下载的时候发现不行，在点开yarn上的log,发现也不行。于是想起来windows host文件没有加上IP和主机名【解决方法】将Windows环境中下面地址的host文件最后添加IP和主机名C:\Windows\System32\drivers\etc添加好后就可以下载了...

2022-04-10 15:46:55 3057 1

原创 Flink--状态后端

文章目录一、是什么三、如何用一、是什么再讲状态后端是什么之前，我要说一句：Flink中状态（State）是什么？看一下官网怎么说状态后端：状态都需要存储到状态后端(StateBackend)，然后在checkpoint触发时，将状态持久化到外部存储系统。Flink提供了三种类型的状态后端，分别是基于内存的状态后端(MemoryStateBackend)、基于文件系统的状态后端(FsStateBackend)以及基于RockDB作为存储介质的RocksDB StateBackend。简而言之

2021-07-19 19:49:48 4668

原创 Oracle---基础知识篇（二）

declare --定义游标 cursor c_job is select empno,ename,job,sal from SCOTT.emp where job = 'MANAGER'; --定义一个变量,存放c_job的每行结果 c_row c_job%rowtype; begin -- for 遍历 for c_row in c_job loop dbms_output.put_line(c_row.empno||'-'||c_row.ename||'-'||c_row.j

2021-07-13 08:17:03 376

原创 Oracle---基础知识篇

文章目录一、基本数据类型二、相关命令创建用户创建命名空间创建表三、自增长四、触发器五、自定义函数一、基本数据类型查看自己的oracle支持的数据类型命令select distinct data_type from user_tab_cols;1、字符型Char：定长最大2000字符。如char(10),当填入’abc’不足10个字符时，自动用空格填充剩余部分。较浪费空间，但查询速度快。Varchar2：可变长最大4000字符。如varchar(20)，当填入’abc’时，占用空间3个字符，剩

2021-07-07 15:30:02 527

原创 Flink---process处理温度

文章目录在10秒内如果一直超过38℃，10秒后报警，如果有低于38℃的数据，则不报警温度连续上升则报警在10秒内如果一直超过38℃，10秒后报警，如果有低于38℃的数据，则不报警package Flink.process;import Flink.beans.SensorReading;import org.apache.flink.api.common.state.ValueState;import org.apache.flink.api.common.state.ValueStateDes

2021-07-06 14:17:42 583

原创 Flink---分流

Flink中将一个流拆分成多个流的方法有两个：split(已过时)，process（推荐）文章目录splitprocesssplitpackage Flink.transform;import Flink.beans.SensorReading;import org.apache.flink.api.common.functions.MapFunction;import org.apache.flink.api.common.functions.RichMapFunction;impor.

2021-07-06 13:56:30 548

原创 Flink---窗口函数

各种窗口import Flink.beans.SensorReading;import org.apache.flink.api.common.functions.MapFunction;import org.apache.flink.api.common.functions.ReduceFunction;import org.apache.flink.api.common.serialization.SimpleStringSchema;import org.apache.flink.api.j

2021-07-01 14:22:33 187

原创 Flink---各种输出（Sink）

文章目录一、kafka二、MySQL一、kafkaimport Flink.beans.SensorReading;import org.apache.flink.api.common.serialization.SimpleStringSchema;import org.apache.flink.streaming.api.datastream.DataStreamSink;import org.apache.flink.streaming.api.datastream.DataStreamSo

2021-06-28 19:01:06 1239 1

原创 Flink---各种数据源（Source）

文章目录一、内存二、文件三、kafka四、自定义public class SensorReading { private String id; private Long timestamp; private Double temperature; // 这里构造器、getter、setter、toString() 就不粘贴了}一、内存public class Source1_Collection { public static void main(Strin

2021-06-28 18:49:41 1018

原创 Flink---wordcount

Flink处理的类型：DataStream,类似于SparkStreaming中的DStream文章目录一、导入依赖二、编写代码一、导入依赖<dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-java</artifactId> <version>1.10.1</version>&lt.

2021-06-28 18:26:26 128

原创 Redis安装和使用

Redis（Remote Dictionary Server )，即远程字典服务，是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库,它支持存储的value类型，包括string(字符串)、list(链表)、set(集合)、zset(sorted set --有序集合)和hash（哈希类型）。文章目录一、Redis安装1、安装gcc2、下载Redis3、解压4、编译5、拷贝配置文件至新目录下6、修改配置文件（可跳过）7、启动二、Redis基本命令St.

2021-06-25 15:31:06 407 1

原创 CentOS安装Oracle教程

前言：硬盘空间准备大一点，压缩包2.3G，安装后大概8、9个G安装环境：CentOS 7 + Oracle 11g文章目录一、关闭防火墙二、安装依赖三、验证依赖四、创建Oracle用户五、解压六、修改系统配置七、创建Oracle安装目录八、修改环境变量九、修改Oracle配置文件真正安装数据库一、关闭防火墙systemctl stop firewalld.servicesystemctl disable firewalld.service二、安装依赖yum -y install binu.

2021-06-24 13:29:35 1728 3

原创 SparkStreaming---SparkSQL

如何在SparkStreaming中编写 SparkSQL【目的：当业务由rdd处理很麻烦的时候，可以使用SparkSQL 来解决】package windowimport org.apache.kafka.clients.consumer.{ConsumerConfig, ConsumerRecord}import org.apache.spark.SparkConfimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.{Dat

2021-06-23 18:59:11 249

原创 SparkStreaming---窗口函数

文章目录一、窗口函数二、transform一、窗口函数package windowimport org.apache.kafka.clients.consumer.{ConsumerConfig, ConsumerRecord}import org.apache.spark.SparkConfimport org.apache.spark.streaming.dstream.{DStream, InputDStream}import org.apache.spark.streaming.kaf

2021-06-23 18:55:59 419

原创 SparkStreaming---wordcount(kafka)

本文主要讲：利用 SparkStreaming 方式读取并处理 kafka中的数据，最后存储到 kafka文章目录一、导入依赖二、编写代码三、测试一、导入依赖<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>2.4.7</version></depe.

2021-06-22 18:59:56 361

原创 SparkStreaming---简单demo(NetCat)

本文主要讲：利用 SparkStreaming 方式读取并处理通过Netcat方式获得的数据文章目录一、导入依赖二、编写程序三、测试一、导入依赖<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>2.4.7</version></dependency.

2021-06-22 18:58:55 358

原创如何将项目上传至Azkaban上运行

文章目录一、编写项目代码二、编写Azkaban必须文件三、使用Azkaban执行项目代码一、编写项目代码package Azkaban;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSparkContext;import java.util.Arrays;/*** 为了演示所以就简单点：打印 1-5*/pu

2021-06-22 18:58:16 626

原创 CentOS安装MySQL5.7教程

文章目录安装wgetMySQL安装1、下载MySQL源安装包2、安装MySQL源3、检查mysql源是否安装成功4、安装MySQL5、启动服务并设置开机自启6、修改密码7、设置远程登录8、查看用户名和密码安装wgetyum -y install wget查看是否安装rpm -qa|grep "wget"MySQL安装1、下载MySQL源安装包wget http://dev.mysql.com/get/mysql57-community-release-el7-8.noarch.rpm2

2021-06-21 09:59:14 844

原创 Spark处理json数据（二）

基于上一篇：Spark处理json数据的实战应用文章目录一、要处理的 json 文件二、处理的过程1、全部代码2、代码分析过程一、要处理的 json 文件【这种json文件可以是通过 fastJson处理后要分析的数据（json里面套json）】op.log1593136280858|{"cm":{"ln":"-55.0","sv":"V2.9.6","os":"8.0.4","g":"C6816QZ0@gmail.com","mid":"489","nw":"3G","l":"es","vc"

2021-06-11 16:53:10 2810 1

原创 Hive---collect_list和collect_set

collect_list 和 collect_set 都是实现将某一列合并成一行（列转行）的作用。二者区别：collect_list ：返回包含重复元素的集合collect_set ：返回去除重复元素的集合如何实现列转行的呢举个例子首先建个表create table user_film(user_name string,film_name string)partitioned by(day string)row format delimitedfields terminate

2021-06-10 20:02:20 1159 1

原创 Hive---JDBC

文章目录一、导入Jar 包二、编写程序一、导入Jar 包下载地址：hive-jdbc-1.1.0-cdh5.14.2-standalone.jar下载好后，直接导入或者添加依赖，但是阿里云好像没这个 jar 包，最好换个镜像地址<dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-jdbc</artifactId> <version

2021-06-08 12:27:40 2058

原创 MySQL引擎

MySQL 1.5.X之前是MyISAM，之后就是InnoDB查看MySQL引擎mysql> show engines;+--------------------+---------+----------------------------------------------------------------+--------------+------+------------+| Engine | Support | Comment .

2021-06-08 12:18:49 109

原创 HBase数据导入Hive

文章目录HBase数据的准备Hive建表和导入HBase数据的准备表：event_db:users表结构表数据Hive建表和导入创建库：create database events设置临时变量代表 events：set hivevar:db=events;设置动态分区非严格模式：set hive.exec.dynamic.partition.mode=nonstrict;设置允许动态分区：set hive.exec.dynamic.partition=true;关闭自动mapjoi

2021-06-07 19:20:38 969

原创 MongoDB数据导入Hive

文章目录一、添加 jar 包（很重要）二、MongoDB数据准备三、Hive配置一、添加 jar 包（很重要）【注意：大部分报错就是 jar包的问题，不是包导错了，就是版本不对】 <dependency> <groupId>org.mongodb</groupId> <artifactId>mongodb-driver</artifactId> <version>3.2.2</vers

2021-06-07 18:56:22 553

原创 MongoDB设置用户密码后报权限问题

当设置MongoDB用户权限时，普通配置的API 会报权限问题，所以这里需要稍稍修改一下import com.mongodb.MongoClient;import com.mongodb.MongoCredential;import com.mongodb.ServerAddress;import com.mongodb.client.FindIterable;import com.mongodb.client.MongoCollection;import com.mongodb.client.

2021-06-07 17:34:16 443

原创 MongoDB---设置用户名和密码

文章目录roles角色详解：一、设置用户1、添加用户2、查看用户3、删除用户二、配置mongo.conf文件三、登录roles角色详解：数据库用户角色（Database User Roles)read : 授权User只读数据的权限，允许用户读取指定的数据库readWrite 授权User读/写数据的权限，允许用户读/写指定的数据库数据库管理角色（Database Admininstration Roles)dbAdmin：在当前的数据库中执行管理操作，如索引的创建、删除、统计、查看等

2021-06-07 16:38:21 815

原创 MongoDB---增删改查命令

文章目录插入查询1、全表查询2、单条件查询3、多条件查询4、显示指定列5、查询数据量6、分页查询7、模糊查询8、比较符9、in、and、or修改删除排序索引查看计划插入db.stu.insert([{"_id":"1","title":"xx","content":"yy","readNum":21,"name":"cc","userid":"1001","nick":"kk"},{"_id":"2","title":"xc","content":"st","readNum":28,"name":"

2021-06-04 14:12:16 113

原创数据库连接池

c3p0：参考链接数据库连接池import java.sql.Connection;import java.sql.DriverManager;import java.sql.SQLException;import java.util.LinkedList;/** * @Author shall潇 * @Date 2021/6/1 * @Description */public class MysqlPool { /*数据库连接池基本配置信息*/ private

2021-06-01 18:31:37 105

原创数据库CAP定理和BASE理论

CAP定理（CAP theorem）在计算机科学中, CAP定理（CAP theorem）, 又被称作布鲁尔定理（Brewer’s theorem）, 它指出对于一个分布式计算系统来说，不可能同时满足以下三点:一致性(Consistency) (所有节点在同一时间具有相同的数据)可用性(Availability) (保证每个请求不管成功或者失败都有响应)分隔容忍(Partition tolerance) (系统中任意信息的丢失或失败不会影响系统的继续运作)CAP理论的核心是：一个分布式系统不

2021-06-01 15:44:38 181

原创 MongoDB的安装

文章目录一、解压缩二、创建目录三、配置文件三、启动一、解压缩tar -zxvf mongodb-linux-x86_64-rhel70-4.0.24.tgzmv mongodb-linux-x86_64-rhel70-4.0.24 mongodb二、创建目录进入mongoda目录数据库目录：mkdir -p data/db数据库日志：mkdir log三、配置文件vi mongodb.confsystemLog: destination: file path: "

2021-06-01 15:30:06 729

原创 Kafka---将kafka中的数据导入HBase

import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.HConstants;import org.apache.hadoop.hbase.TableName;import org.apache.hadoop.hbase.client.*;import org.apache.hadoop.hbase.uti

2021-06-01 14:46:09 416

飞机大作战（亲测可用）

customers.csv

Hadoop高可用配置HA.docx

MapReduce.7z

log4j.properties

Servlet简单实现用户登录等功能.zip

DouDiZhu.java

空空如也