每天都超级可爱-优快云博客

转载 SpringCloud

SpringCloudTip:文章来自:https://blog.youkuaiyun.com/qq_42046105/article/details/83793787?depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromBaidu-3&utm_source=distribute.pc_relevant....

2020-04-23 11:42:13 223

原创项目实施(二)-大数据板块设计之历史数据更新

历史数据更新定义一个链式调动的接口/** * 构建一个链式调动的接口通过链来更新各个维度之间的历史数据 * */public interface Updater { public void update(LoginSuccessData loginSuccessData, HistoryData historyData,UpdaterChain updaterChain);...

2020-04-10 12:11:39 359

原创项目实施(一)-大数据板块设计之用户登录风险评估

大数据板块设计(阶段2)用户登陆风险评估检查出⾮⽤户登录，或者账号被盗窃等潜在⻛险挖掘。通过对用户登录行为进行分析，提高了预测的准确性；可以应用于互联网金融风控技术中，也可应用于普通网站的用户恶意登录识别技术中异地登录认定有⻛险（不在⽤户经常登陆地）登录的位移速度超过正常值，认定有⻛险更换设备，认定有⻛险登录时段-习惯，出现了异常，存在⻛险每天的累计登录次数超过上限，认定有⻛险...

2020-04-02 03:02:03 729 1

原创 Springboot+Mysql+AOP的读写分离

Springboot+Mysql+AOP的读写分离相关依赖<dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-web</artifa...

2020-03-21 04:06:27 327

原创 FastDFS+Ngix的集成+FastDHT去重

FastDFS分布式文件系统特点开源的轻量级分布式文件系统纯粹C语言实现支持Linux FreeBSD等unix系统类似CoogleFs/HDFS 但是不是通用的文件系统只能通过专有的API访问目前提供了C Java和PHPAPI 高性能,高扩展不仅可以存储文件,还可以存储文件的元数据信息架构FastDFS架构中有client tracker 和 storage服务...

2020-03-21 03:38:08 998

原创 Springboot+Mybatis+Redis实现二级缓存

Springboot+Mybatis+Redis实现二级缓存环境准备引依赖<dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-data-redis&l...

2020-03-19 17:30:54 423

原创 Springboot基于Mycat的读写分离

Mysql安装环境准备# 1.卸载mariadb，否则安装mysql会出现冲突# 2.执行命令rpm -qa | grep mariadb# 3.列出所有被安装的mariadb rpm 包；# 4.执行命令rpm -e --nodeps mariadb-libs-5.5.56-2.el7.x86_64本地安装将下载好的软件包传到linux系统中并解压tar -zxvf 软件...

2020-03-19 17:17:47 508 1

原创 Apache-Flink

Apache-Flink概述Flink是构建在数据流之上地有状态计算地流计算框架通常被人们理解为是第三代大数据分析方案第一代-Hadoop的MapReduce(计算) Storm流计算(2014.9) 两套独立计算引擎使用难度大第二代-Spark RDD静态批处理(2014.2) DStream|Structured Streaming流计算统一计算引擎难度系数小第三代-Fli...

2020-03-17 19:39:19 658

原创 Structured Stream-结构化流

Structured Stream-结构化流概述是基于Spark SQL引擎构建的可伸缩且容错的流处理引擎,它可以使用SQL操作流处理,像使用SparkSQL操作静态批处理计算一样.SparkSQL引擎负责递增,连续的运行持续到达的流数据并更新最终结果,使用Dataset/DataFrame API 实现对实时数据的聚合 event-time窗口计算以及流到批处理的join操作.最后,系统通过...

2020-03-17 19:19:12 598

原创 Spark Streaming

Spark Streaming概述在流式计算模型中,永远都拿不到全量数据去计算,因为输出是持续的,在时间上也可以认为是无界的.同时计算结果持续输出即计算结果在时间上也是无界的.流失计算对实时性要求较高,一般先定义目标计算,然后数据到来之后将计算逻辑应用于数据,为了提高计算效果,往往尽可能采用增量计算代替全量计算.而在批处理模型中,先要有全量数据集,然后定义计算逻辑,并将计算应用于全量数据,计...

2020-03-17 18:45:31 235

原创 Springboot+Mybatis

Springboot引言Spring Boot是由Pivotal团队提供的全新框架，其设计目的是用来简化新Spring应用的初始搭建以及开发过程。该框架使用了特定的方式来进行配置，从而使开发人员不再需要定义样板化的配置。通过这种方式，Spring Boot致力于在蓬勃发展的快速应用开发领域标题(rapid application development)成为领导者。Springboot=S...

2020-03-17 17:35:22 339

原创 Spark SQL

Spark SQLSpark SQL是用于结构化数据处理的一个模块同Spark RDD不同地方在于Spark SQL的API可以给Spark计算引擎提供更多地信息例如:数据结构计算算子等在内部Spark可以通过这些信息有针对对任务做优化和调整这里有几种方式和Spark SQL进行交互例如Dataset API和SQL等这两种API可以混合使用 Spark SQL的一个用途是执行SQ...

2020-02-26 21:58:59 298

原创 Apache Spark

Spark快统一的分析引擎概述Spark是一个计算框架(快如闪电的统一分析引擎) 可以做大规模数据集的处理 Spark批处理计算性能大约是Hadoop MapReduce的10~100倍因为Spark使用先进的基于DAG任务调度可以将任务拆分成若个阶段然后将这些阶段批次交给集群计算节点处理MapReduce vs SparkMapRduce作为第一代大数据处理框架在设计初期只...

2020-02-26 21:46:46 349

原创大数据-Hbase

HBase1.概念HBase 是一个基于Hadoop的分布式可扩展巨大数据仓库当用户需要对海量数据进行实时(时效性)随机(记录级别数据)读/写用户可以使用Hbase Hbase设计目标是能够持有一张巨大的表该表的规模能达到数十亿行 * 数百亿列并且可以运行在商用的硬件集群之上 Hbase是一个开源的分布式版本化的非关系化的数据库-NOSQL 该设计仿照了Google的Big...

2020-01-13 20:06:04 266

原创 Hbse 和 Hive 架构的分析

Hbase 架构宏观架构：Hbase采用Master/Slave 架构搭建集群它隶属于hadoop生态系统由HMaster节点 HRegion Server节点 Zookeeper集群组成而在底层它将数据存储在HDFS中因而涉及到HDFS的NameNode DataNode等在物理上：Hbase由master/slave类型体系结构中的三种服务器组成 Region Server为读...

2020-01-12 18:03:17 409

原创 Hive SQL操作

SQL查询单表查询select 字段 from 表名;where查询select 字段 from 表名 where 条件;distinct查询说明：等价于去重将不同的数据查询出来select distinct(字段) from 表名;分区查询select 字段 from 表名 where 条件Limit查询select 字段 from 表名 order by 字段...

2020-01-12 17:13:08 224

原创大数据-Hbase HA集群搭建

基础配置准备环节：准备三台机器10.15.0.6 hbase610.15.0.7 hbase710.15.0.8 hbase8为了保证服务间能够正常通信需要配置主机名和ip映射关系vim /etc/hosts10.15.0.6 hbase610.15.0.7 hbase710.15.0.8 hbase8关闭防火墙[root@hbas...

2020-01-09 13:22:48 187

原创大数据-HBase安装

HDFS基本环境(存储)安装JDK解压： rmp -ivh jdk-8u171-linux-x64.rpm配置环境变量JAVA_HOME：vi .bashrc注意:vi .bashrc 配置当前用户的环境变量JAVA_HOME=/usr/soft/jdk1.8CLASSPATH=.PATH=$PATH:$JAVA_HOME/binexport JAVA_HOMEexpo...

2020-01-06 19:49:58 150

原创大数据-MR的运行原理

对上诉图片的详细解释计算切片：有几个切片就有几个map task环形缓存区：经过map函数的逻辑处理后的数据输出之后，会通过OutputConllector收集器将数据收集到环形缓存区保存环形缓存区的大小默认100M 当保存的数据达到80%时就将缓存区的数据溢出到磁盘上保存溢出环形缓存区的数据达到其容量的80%时就会溢出到磁盘上进行保存在此过程中程序会对数据进行分区(默认H...

2020-01-05 17:06:06 1354