- 博客(194)
- 资源 (7)
- 收藏
- 关注

原创 Hive的安装和配置
【前言】确保当前机器上装有可用的mysql,没有的可以参考这篇文章:点这里文章目录一、安装二、创建Hive本地文件夹三、配置环境变量四、配置文件五、启动一、安装tar -zxvf hive-1.1.0-cdh5.14.2.tar.gzmv 改名二、创建Hive本地文件夹进入hive目录mkdir warehouse三、配置环境变量vi /etc/profile添加export HIVE_HOME=/opt/soft/hiveexport PATH=$HIVE_HOME/bin:
2021-03-26 11:30:57
538

原创 MapReduce
文章目录MapReduce官方执行过程一、MapReduce1、pom文件2、MR代码二、配置log4jMapReduce官方执行过程数据倾斜:数据分配到各个节点的量不平衡,有的很少,有的很多分片:当后一个块大小小于10%,会合并到前一块一、MapReduce1、pom文件<dependencies> <dependency> <groupId>junit</groupId> <artifactId>j
2021-03-23 15:21:51
302
1

原创 Hadoop高可用安装与配置
【前言:提前安装好Hadoop的集群模式】文章目录一、配置文件二、启动Journalnode三、删除tmp和logs文件夹四、HDFS格式化五、同步元数据(分发tmp文件给从机)五、启动namenode六、初始化Zookeeper七、全部开启八、测试一、配置文件1、core-site.xml<configuration><property> <name>fs.defaultFS</name> <value>hdfs://hadoo
2021-03-22 18:47:43
461
2

原创 Hadoop伪分布式安装
Linux上安装Hadoop前言:提前做好以下两样事情1、网络设置好,防火墙关掉2、Java安装好,环境变量配好一、下载并解压1.将这两个安装包上传到Linux上2.解压缩tar -zxvf hadoop-2.6.0-cdh5.14.2.tar.gzmv hadoop-2.6.0-cdh5.14.2 hadoop:重命名二、修改Hadoop配置文件三、配置环境变量四、格式化HDFS五、启动Hadoop六、实例...
2021-03-13 20:50:30
365
3
原创 hadoop上文件下载不了如何解决
【背景】我在centos 7 环境下刚安装好 hadoop3.0, 运行完 wordcount例子,想看一下数据结果,但是点下载的时候发现不行,在点开yarn上的log,发现也不行。于是想起来windows host文件没有加上IP和主机名【解决方法】将Windows环境中下面地址的host文件最后添加IP和主机名C:\Windows\System32\drivers\etc添加好后就可以下载了...
2022-04-10 15:46:55
3057
1
原创 Flink--状态后端
文章目录一、是什么三、如何用一、是什么再讲状态后端是什么之前,我要说一句:Flink中状态(State)是什么?看一下官网怎么说状态后端: 状态都需要存储到状态后端(StateBackend),然后在checkpoint触发时,将状态持久化到外部存储系统。Flink提供了三种类型的状态后端,分别是基于内存的状态后端(MemoryStateBackend)、基于文件系统的状态后端(FsStateBackend)以及基于RockDB作为存储介质的RocksDB StateBackend。简而言之
2021-07-19 19:49:48
4668
原创 Oracle---基础知识篇(二)
declare --定义游标 cursor c_job is select empno,ename,job,sal from SCOTT.emp where job = 'MANAGER'; --定义一个变量,存放c_job的每行结果 c_row c_job%rowtype; begin -- for 遍历 for c_row in c_job loop dbms_output.put_line(c_row.empno||'-'||c_row.ename||'-'||c_row.j
2021-07-13 08:17:03
376
原创 Oracle---基础知识篇
文章目录一、基本数据类型二、相关命令创建用户创建命名空间创建表三、自增长四、触发器五、自定义函数一、基本数据类型查看自己的oracle支持的数据类型命令select distinct data_type from user_tab_cols;1、字符型Char:定长最大2000字符。如char(10),当填入’abc’不足10个字符时,自动用空格填充剩余部分。较浪费空间,但查询速度快。Varchar2:可变长最大4000字符。如varchar(20),当填入’abc’时,占用空间3个字符,剩
2021-07-07 15:30:02
527
原创 Flink---process处理温度
文章目录在10秒内如果一直超过38℃,10秒后报警,如果有低于38℃的数据,则不报警温度连续上升则报警在10秒内如果一直超过38℃,10秒后报警,如果有低于38℃的数据,则不报警package Flink.process;import Flink.beans.SensorReading;import org.apache.flink.api.common.state.ValueState;import org.apache.flink.api.common.state.ValueStateDes
2021-07-06 14:17:42
583
原创 Flink---分流
Flink中将一个流拆分成多个流的方法有两个:split(已过时),process(推荐)文章目录splitprocesssplitpackage Flink.transform;import Flink.beans.SensorReading;import org.apache.flink.api.common.functions.MapFunction;import org.apache.flink.api.common.functions.RichMapFunction;impor.
2021-07-06 13:56:30
548
原创 Flink---窗口函数
各种窗口import Flink.beans.SensorReading;import org.apache.flink.api.common.functions.MapFunction;import org.apache.flink.api.common.functions.ReduceFunction;import org.apache.flink.api.common.serialization.SimpleStringSchema;import org.apache.flink.api.j
2021-07-01 14:22:33
187
原创 Flink---各种输出(Sink)
文章目录一、kafka二、MySQL一、kafkaimport Flink.beans.SensorReading;import org.apache.flink.api.common.serialization.SimpleStringSchema;import org.apache.flink.streaming.api.datastream.DataStreamSink;import org.apache.flink.streaming.api.datastream.DataStreamSo
2021-06-28 19:01:06
1239
1
原创 Flink---各种数据源(Source)
文章目录一、内存二、文件三、kafka四、自定义public class SensorReading { private String id; private Long timestamp; private Double temperature; // 这里 构造器、getter、setter、toString() 就不粘贴了}一、内存public class Source1_Collection { public static void main(Strin
2021-06-28 18:49:41
1018
原创 Flink---wordcount
Flink处理的类型:DataStream,类似于SparkStreaming中的DStream文章目录一、导入依赖二、编写代码一、导入依赖<!--Java版--><dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-java</artifactId> <version>1.10.1</version><.
2021-06-28 18:26:26
128
原创 Redis安装和使用
Redis(Remote Dictionary Server ),即远程字典服务,是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库,它支持存储的value类型,包括string(字符串)、list(链表)、set(集合)、zset(sorted set --有序集合)和hash(哈希类型)。文章目录一、Redis安装1、安装gcc2、下载Redis3、解压4、编译5、拷贝配置文件至新目录下6、修改配置文件(可跳过)7、启动二、Redis基本命令St.
2021-06-25 15:31:06
407
1
原创 CentOS安装Oracle教程
前言:硬盘空间准备大一点,压缩包2.3G,安装后大概8、9个G安装环境:CentOS 7 + Oracle 11g文章目录一、关闭防火墙二、安装依赖三、验证依赖四、创建Oracle用户五、解压六、修改系统配置七、创建Oracle安装目录八、修改环境变量九、修改Oracle配置文件真正安装数据库一、关闭防火墙systemctl stop firewalld.servicesystemctl disable firewalld.service二、安装依赖yum -y install binu.
2021-06-24 13:29:35
1728
3
原创 SparkStreaming---SparkSQL
如何在SparkStreaming中编写 SparkSQL【目的:当业务由rdd处理很麻烦的时候,可以使用SparkSQL 来解决】package windowimport org.apache.kafka.clients.consumer.{ConsumerConfig, ConsumerRecord}import org.apache.spark.SparkConfimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.{Dat
2021-06-23 18:59:11
249
原创 SparkStreaming---窗口函数
文章目录一、窗口函数二、transform一、窗口函数package windowimport org.apache.kafka.clients.consumer.{ConsumerConfig, ConsumerRecord}import org.apache.spark.SparkConfimport org.apache.spark.streaming.dstream.{DStream, InputDStream}import org.apache.spark.streaming.kaf
2021-06-23 18:55:59
419
原创 SparkStreaming---wordcount(kafka)
本文主要讲:利用 SparkStreaming 方式读取并处理 kafka中的数据,最后存储到 kafka文章目录一、导入依赖二、编写代码三、测试一、导入依赖<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>2.4.7</version></depe.
2021-06-22 18:59:56
361
原创 SparkStreaming---简单demo(NetCat)
本文主要讲:利用 SparkStreaming 方式读取并处理 通过Netcat方式获得的数据文章目录一、导入依赖二、编写程序三、测试一、导入依赖<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>2.4.7</version></dependency.
2021-06-22 18:58:55
358
原创 如何将项目上传至Azkaban上运行
文章目录一、编写项目代码二、编写Azkaban必须文件三、使用Azkaban执行项目代码一、编写项目代码package Azkaban;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSparkContext;import java.util.Arrays;/*** 为了演示所以就简单点:打印 1-5*/pu
2021-06-22 18:58:16
626
原创 CentOS安装MySQL5.7教程
文章目录安装wgetMySQL安装1、下载MySQL源安装包2、安装MySQL源3、检查mysql源是否安装成功4、安装MySQL5、启动服务并设置开机自启6、修改密码7、设置远程登录8、查看用户名和密码安装wgetyum -y install wget查看是否安装rpm -qa|grep "wget"MySQL安装1、下载MySQL源安装包wget http://dev.mysql.com/get/mysql57-community-release-el7-8.noarch.rpm2
2021-06-21 09:59:14
844
原创 Spark处理json数据(二)
基于上一篇:Spark处理json数据 的实战应用文章目录一、要处理的 json 文件二、处理的过程1、全部代码2、代码分析过程一、要处理的 json 文件【这种json文件可以是通过 fastJson处理后要分析的数据(json里面套json)】op.log1593136280858|{"cm":{"ln":"-55.0","sv":"V2.9.6","os":"8.0.4","g":"C6816QZ0@gmail.com","mid":"489","nw":"3G","l":"es","vc"
2021-06-11 16:53:10
2810
1
原创 Hive---collect_list和collect_set
collect_list 和 collect_set 都是实现将某一列合并成一行(列转行)的作用。二者区别:collect_list : 返回包含重复元素的集合collect_set :返回去除重复元素的集合如何实现列转行的呢举个例子首先建个表create table user_film(user_name string,film_name string)partitioned by(day string)row format delimitedfields terminate
2021-06-10 20:02:20
1159
1
原创 Hive---JDBC
文章目录一、导入Jar 包二、编写程序一、导入Jar 包下载地址:hive-jdbc-1.1.0-cdh5.14.2-standalone.jar下载好后,直接导入或者添加依赖,但是 阿里云好像没这个 jar 包,最好换个镜像地址<dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-jdbc</artifactId> <version
2021-06-08 12:27:40
2058
原创 MySQL引擎
MySQL 1.5.X之前是MyISAM,之后就是InnoDB查看MySQL引擎mysql> show engines;+--------------------+---------+----------------------------------------------------------------+--------------+------+------------+| Engine | Support | Comment .
2021-06-08 12:18:49
109
原创 HBase数据导入Hive
文章目录HBase数据的准备Hive建表和导入HBase数据的准备表:event_db:users表结构表数据Hive建表和导入创建库:create database events设置临时变量代表 events:set hivevar:db=events;设置动态分区非严格模式:set hive.exec.dynamic.partition.mode=nonstrict;设置允许动态分区:set hive.exec.dynamic.partition=true;关闭自动mapjoi
2021-06-07 19:20:38
969
原创 MongoDB数据导入Hive
文章目录一、添加 jar 包 (很重要)二、MongoDB数据准备三、Hive配置一、添加 jar 包 (很重要)【注意:大部分报错就是 jar包的问题,不是包导错了,就是版本不对】 <dependency> <groupId>org.mongodb</groupId> <artifactId>mongodb-driver</artifactId> <version>3.2.2</vers
2021-06-07 18:56:22
553
原创 MongoDB设置用户密码后报权限问题
当设置MongoDB用户权限时,普通配置的API 会报权限问题,所以这里需要稍稍修改一下import com.mongodb.MongoClient;import com.mongodb.MongoCredential;import com.mongodb.ServerAddress;import com.mongodb.client.FindIterable;import com.mongodb.client.MongoCollection;import com.mongodb.client.
2021-06-07 17:34:16
443
原创 MongoDB---设置用户名和密码
文章目录roles角色详解:一、设置用户1、添加用户2、查看用户3、删除用户二、配置mongo.conf文件三、登录roles角色详解:数据库用户角色(Database User Roles)read : 授权User只读数据的权限,允许用户读取指定的数据库readWrite 授权User读/写数据的权限,允许用户读/写指定的数据库数据库管理角色(Database Admininstration Roles)dbAdmin:在当前的数据库中执行管理操作,如索引的创建、删除、统计、查看等
2021-06-07 16:38:21
815
原创 MongoDB---增删改查命令
文章目录插入查询1、全表查询2、单条件查询3、多条件查询4、显示指定列5、查询数据量6、分页查询7、模糊查询8、比较符9、in、and、or修改删除排序索引查看计划插入db.stu.insert([{"_id":"1","title":"xx","content":"yy","readNum":21,"name":"cc","userid":"1001","nick":"kk"},{"_id":"2","title":"xc","content":"st","readNum":28,"name":"
2021-06-04 14:12:16
113
原创 数据库连接池
c3p0:参考链接数据库连接池import java.sql.Connection;import java.sql.DriverManager;import java.sql.SQLException;import java.util.LinkedList;/** * @Author shall潇 * @Date 2021/6/1 * @Description */public class MysqlPool { /*数据库连接池基本配置信息*/ private
2021-06-01 18:31:37
105
原创 数据库CAP定理和BASE理论
CAP定理(CAP theorem)在计算机科学中, CAP定理(CAP theorem), 又被称作 布鲁尔定理(Brewer’s theorem), 它指出对于一个分布式计算系统来说,不可能同时满足以下三点:一致性(Consistency) (所有节点在同一时间具有相同的数据)可用性(Availability) (保证每个请求不管成功或者失败都有响应)分隔容忍(Partition tolerance) (系统中任意信息的丢失或失败不会影响系统的继续运作)CAP理论的核心是:一个分布式系统不
2021-06-01 15:44:38
181
原创 MongoDB的安装
文章目录一、解压缩二、创建目录三、配置文件三、启动一、解压缩tar -zxvf mongodb-linux-x86_64-rhel70-4.0.24.tgzmv mongodb-linux-x86_64-rhel70-4.0.24 mongodb二、创建目录进入mongoda目录数据库目录:mkdir -p data/db数据库日志:mkdir log三、配置文件vi mongodb.confsystemLog: destination: file path: "
2021-06-01 15:30:06
729
原创 Kafka---将kafka中的数据导入HBase
import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.HConstants;import org.apache.hadoop.hbase.TableName;import org.apache.hadoop.hbase.client.*;import org.apache.hadoop.hbase.uti
2021-06-01 14:46:09
416
原创 Java---统计单词个数
一、单线程统计package JDBCstu.test;import java.io.BufferedReader;import java.io.FileNotFoundException;import java.io.FileReader;import java.io.IOException;import java.util.Map;import java.util.TreeMap;/** * @Author shall潇 * @Date 2021/5/31 * @Descrip
2021-05-31 21:41:38
2095
原创 Kafka---窗口函数
import org.apache.kafka.clients.consumer.ConsumerConfig;import org.apache.kafka.common.serialization.Serdes;import org.apache.kafka.streams.*;import org.apache.kafka.streams.kstream.*;import java.time.Duration;import java.util.Arrays;import java.uti
2021-05-31 21:41:23
448
原创 FastJSON
文章目录一、导入依赖二、编写程序一、导入依赖<dependency> <groupId>com.alibaba</groupId> <artifactId>fastjson</artifactId> <version>1.2.62</version></dependency>二、编写程序import com.alibaba.fastjson.JSON;import java.util.A
2021-05-27 18:53:18
104
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人