陈同学�-优快云博客

原创 hive 注释乱码问题

alter table COLUMNS_V2 modify column COMMENT varchar(256) character set utf8;alter table TABLE_PARAMS modify column PARAM_VALUE varchar(4000) character set utf8;

2024-06-06 16:38:29 131

原创 sentry权限控制

Apache Sentry是一个可以对Hadoop集群中的数据及元数据进行细粒度管理的权限管理系统。Sentry目前可以与ApacheHive，HiveMetastore / HCatalog，Apache Solr，Impala和HDFS（仅限于Hive表数据）等进行集成，对其数据进行权限管理。

2023-03-07 18:08:09 1277

----------------------------查找一个人得所有关系。-----------------------------创建一个人得关系。-----------------------------删除所有。-----------------------------启动。-----------------------------导入。msql connect jar包放入plugins。

2022-09-06 17:48:57 566

原创 Elasticsearch集成03

logstash 导出数据到es

2022-08-05 14:59:31 453

原创胖包瘦包配置

胖包 <pluginManagement> <plugins> <plugin> <groupId>net.alchim31.maven</groupId> <artifactId>scala-maven-plugin</artifactId>

2022-04-25 16:39:18 172

原创 SpringBoot简单应用

SpringBoo

2022-03-22 14:14:33 88

原创 CDH使用独立的Spark

CDH使用独立的Spark1. 下载安装spark2. 配置环境变量# vim ~/.bashrc export HADOOP_HOME=/opt/cloudera/parcels/CDH/lib/hadoopexport HADOOP_CONF_DIR=/etc/hadoop/confexport YARN_CONF_DIR=/etc/hadoop/confexport SPARK_CONF_DIR=/bigdata/spark/confexport SPARK_HOME=/dat

2022-02-25 16:51:03 1436

原创 SparkStreaming升级版_结构化流

SparkStreaming升级版+上Flink处理eventtime功能1. readStream读流专用 readStream最简单的版本： SparkSQL读取stream流打印package com.cityos.spark.sssimport org.apache.spark.sql.{DataFrame, SparkSession}object WCApp { def main(args: Array[String]): Unit = { val spark

2021-12-24 18:06:02 973

原创 Spark源码分析

Spark源码分析Spark on YarnclientCluster本质区别，driver位置不同1)有哪些不同得进程？2)分别有什么作用？3)Spark作业执行流程是什么样的跑yarn有--master yarnCoarseGrainedExecutorBackend 默认executor有两个CoarseGrainedExecutorBackend SparkSubmitApplicationMaster跑Client有--master clientCoarseG

2021-12-07 10:26:48 1450

原创 Spark封装SQL作业

Spark封装SQL作业SQL ON HADOOP1. SparkSessionhive 支持--> 能够去操作Hive对应的Metastrore里面的数据spark.sql(......)ThriftServer <==> beeline/2.hive -eSQL通过UI配置 ==> 存储到某个地方 ==> mysql开发一个通用的SQL执行作业(一个或者一类)raw ⇒ ods ⇒ 各种维度的统计分析(可能会涉及到一系列的SQL)access

2021-12-01 11:41:44 2275

原创 Flink集群提交作业运行

Flink集群提交作业运行Slot: 槽位Task subTask 最底层：运行在Slot上面进程：TaskManangerRunner1. 如何传入参数object parametersApp { def main(args: Array[String]): Unit = { /** * 对任何作业来说：涉及到得参数分为2个类 * 1）必填 * 2）可选 * */ val parameters: ParameterT

2021-10-13 15:42:52 243

原创 Flink时间窗口

Flink时间窗口1. TimeEvent time：数据真正产生的时间access：time应该是属于数据/时间的一个部分watermark：肯定和EventTIme相关允许数据迟到多久优点：执行结果确定的乱序、延时缺点：延迟Ingestion time: 进入flink的时间与机器时间有关系Flink source operator 有关processiong time：业务执行的时间operator运行时间2. windowwindow：窗口无限分类：时

2021-09-30 18:15:25 388

原创 Flink Mysql 操作(scalikejdbc)

Flink Mysql 操作pom文件 <dependency> <groupId>mysql</groupId> <artifactId>mysql-connector-java</artifactId> <version>5.1.28</version> </depend

2021-09-27 15:35:49 195

原创 CDH WEB UI 详细解读 2021-09-26

CDH WEB UI 详细解读1. 配置常使用配置数据库迁移磁盘配置文件存储日志端口号如果服务挂了可以先查看status再查看var/message 看是不是OOM机制可以配置加上一些需要得图标

2021-09-27 09:19:59 488

原创 Flin对接Kafka实践

Flin对接Kafka实践 <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-connector-kafka_2.11</artifactId> <version>1.11.2</version> </dependency>

2021-09-24 15:21:00 133

原创 Flink 编程核心概念

Flink 编程核心概念1. 前期基础进行升华一些别的方式package com.ruozedata.flink.ByKeyimport org.apache.flink.api.scala._import org.apache.flink.streaming.api.scala.StreamExecutionEnvironmentobject SpecifyingKeysApp { def main(args: Array[String]): Unit = { val e

2021-08-11 08:38:28 131

原创初识Flink

Flink批流一体支持数据类型编程模型 *DataStream ****Data source内置对接第三方自定义Transformationsink内置第三方自定义时间 & 窗口 & WM *****ConnectorState 状态管理Table API & SQL 1.11 和1.10 系列完全不一样CEP项目：搞一个成数据接入到后面全是实时的1. Flink 初用1.1 flink 批处理 <scala

2021-08-09 16:38:28 87

原创 SparkStreaming02增强上集群写hbase

SparkStreaming02增强上集群代码展示package com.hpznyf.sparkstreaming.ss64import org.apache.kafka.common.serialization.StringDeserializerimport org.apache.spark.SparkConfimport org.apache.spark.streaming.kafka010.ConsumerStrategies.Subscribeimport org.apache.

2021-07-30 17:31:46 140

原创 Kafka03 调优、监控、故障案例

Kafka031. kafka调优acks: all 三个副本写完，才确认，保证系数高但是性能低buffer.memory: 536870912 --- 512Mcompression.type:snappyretries: 1000max.in.flight.requests.per.connection = 1 解决全局乱序得情况batch.size:10240字节不是条数 -- 10M producer发送得数据max.request.size = 2097152

2021-07-27 09:05:35 245

原创数仓项目一览

数仓项目一览1. 项目架构2. 需求分析了解数据维度表 dim_city.txtbj,bj01,朝阳bj,bj02,海淀js,js01,南京js,js02,宿迁zj,zj01,杭州zj,zj02,嘉兴sh,sh01,徐汇sh,sh02,虹口gz,gz01,广州gz,gz02,海珠维度表 dim_province.txtbj,北京js,江苏zj,浙江sh,上海gz,广州事实表 dw_user_click_d.txt 清洗过后得用户行为点击表day

2021-07-08 15:44:52 819

原创 Kyin 基础使用

Kyin1. 背景传统数仓架构，实际上只支持垂直扩展hadoop与BI平台衔接不成熟，无法提供高效得交互式查询在这个背景下，eBay 2013年 BI on Hadoop核心设计理念：Hive SparkSQL SQL等 sql on hadoop 框架大规模得并行处理和列式存储对于大多数得数据表来说维度和指标基本上都可以确定预计算得概念把数据计算完存起来= 查询join group by = select = 能够节省一些计算2. 技术架构数据源：实时 kafka/

2021-07-07 10:35:51 845

原创数据仓库大保健

数据仓库文章目录数据仓库1. 范式2. 数据库 & 数据仓库侧重点3. 维度基本概念4. 如何去设计一张表1. 范式范式:第零范式：无重复数据第一范式：满足属性不可分 (例如购买信息(商品价格，商品数据))第二范式：在第一范式得基础上更进一步，确保数据库每一个字段都只和主键相管第三范式：确保数据表中得每一列数据都和主键直接相关，而不能间接相关在第二范式得基础上，属性只能直接依赖主键数据仓库和范式之间存在一种什么关系？维度建模中得星型模型: 在范式上符合第二范式订单表为

2021-06-30 14:42:46 122

原创面试题01

面试题文章目录面试题1. java1. java多线程的常用创建方式有几种？分别是什么？继承Thread类，直接new MyThread (Thread类也是实现了runnable接口)直接实现runnable接口重写run方法ArrayList、HashSet、HashMap的底层实现ArrayList底层其实是创建了一个数组。 grow 为扩容线程不安全...

2021-06-25 16:39:45 298

原创 Kafka02

Kafka02Kafka作用：缓解上游业务高峰给下游带来得压力1. 核心概念kafka-topics.sh --create --zookeeper hadoop003:2181,hadoop004:2181,hadoop005:2181/kafka \--partitions 1 \--replication-factor 1 \--topic g9kafka-topics.sh --describe \--zookeeper hadoop003:2181,hadoop004:21

2021-06-23 15:33:16 178

原创 HBase01基础

HBase 基础需要随机的实时的读写访问采用HBase，分布式可扩展的大数据存储项目目标是为了大表的使用，数十亿行和数百万列Hive写非常难，主要采用load insertHBase非常轻松非常严格的读写表能自动的切分RegionServers 故障转移1. 安装0.98版本很经典官网1.6.02.2.5为稳定版本CDH5.X 1.2.0 ->Spark 2.6.0CDH7.X 2.1.0 -> Hadoop3.0采用hbase-1.2.0

2021-06-02 14:45:40 247 1

原创 26离线项目之数据收集进阶

离线项目之数据收集进阶1. 自定义flume sourcepom<flume.version>1.6.0-cdh5.16.2</flume.version> <dependency> <groupId>org.apache.flume</groupId> <artifactId>flume-ng-core</artifactId>

2021-05-31 16:59:22 81

原创 ElasticSearch02

ElasticSearch021. API 使用 <dependency> <groupId>org.elasticsearch.client</groupId> <artifactId>elasticsearch-rest-high-level-client</artifactId> <version>7.9.1</version>

2021-05-13 08:35:45 68

原创 SparkCore11 优化+内存管理

SparkCore11 优化1. 调优点https://tech.meituan.com/2016/04/29/spark-tuning-basic.html避免创建重复得RDD对于同一份数据不要创建多个RDD，会增加作业得性能开销尽可能复用同一个RDD对多次使用得RDD进行持久化.cache() Lazy 操作cache只有一个默认的缓存级别MEMORY_ONLY ，而persist可以根据情况设置其它的缓存级别。尽量避免使用shuffle算子但实际上无法避免使用map-side得

2021-05-11 16:37:41 83

原创 SparkCore10 shuffle

SparkCore10 shuffle1. 官网shufflehttp://spark.apache.org/docs/2.4.6/rdd-programming-guide.html#shuffle-operations2. 发展史0.8 之前 Hash Based shuffle0.8.1 之后 File Consolidation机制0.9： ExternalAppendOnlyMap1.1：sort based shuffle default：hash1.2：default：sor

2021-05-11 09:45:44 80

原创 SparkCore09

SparkCore091. 将封装成工具类sparkcontext工具类import org.apache.spark.sql.SparkSessionimport org.apache.spark.{SparkConf, SparkContext}object ContextUtils { def getSparkContext(appName: String, master:String = "local[2]") ={ val sparkConf = new SparkConf

2021-04-27 15:15:34 100

原创 ElasticSearch

ElasticSearch 入门

2021-04-26 14:14:50 113

原创 SparkStreaming04

SparkStreaming04checkpoint使用/** 如何在生产上使用checkpoint * */object StateAppV3 extends Logging{ def main(args: Array[String]): Unit = { val checkpoint = "chk2" def functionToCreateContext(): StreamingContext = { val sparkconf = new SparkCon

2021-04-23 14:45:49 51

原创 SparkStreaming03

SparkStreaming03高德地图逆地理转码package com.hpznyf.HTTPAppimport com.alibaba.fastjson.JSONimport org.apache.http.client.methods.HttpGetimport org.apache.http.impl.client.HttpClientsimport org.apache.http.util.EntityUtilsobject HttpClientApp { def main(

2021-04-21 16:45:08 72

原创 kafka-eagle安装部署

Kafka-eagle集群安装部署下载解压kafka-eagle-bin-2.0.1.tar.gz配置环境变量export KE_HOME=/home/hadoop/app/keexport PATH=$PATH:$KE_HOME/bin在我的Kafka启动脚本前加: (我的脚本里面有了)cd ${KAFKA_HOME}export JMX_PORT=9988nohup bin/kafka-server-start.sh config/server.properties &改

2021-04-02 13:21:54 239

原创 Kafka01

Kafka文章目录Kafka1. kafka 部署2. kafka 启动脚本编写3. kafka Topic1. kafka 部署消息中间件mysql–>maxwell–>kafka–>ss/flink–>hbase存储数据缓冲上游业务高峰给下游带来的压力作业夯住流式平台发布&订阅: 类似一个消息系统，读写流式的数据处理: 可以编写可扩展的流式app，用于实时事件的响应存储: 副本备份，容错的集群https://docs.cloudera.com/do

2021-04-02 13:20:47 102

原创 scala泛型

scala泛型1. 泛型例子object GenericApp { def main(args: Array[String]): Unit = {// new weChatMsg("hello")// new DigitMsg(12) val mm1 = new MM[Int, CupEnum, Int](90, CupEnum.G, 160) val mm2 = new MM[Int, CupEnum, Int](80, CupEnum.C, 170)

2021-03-31 13:49:16 101

原创 scala 读取操作 scalalikejdbc

scala 读取操作1. 读文件object FileApp { def main(args: Array[String]): Unit = { val lines = Source.fromFile("data/input/ck").getLines() for(line <- lines){ println(line) } }}2. 读控制台/** * 读取控制台 */object scannerApp { def main(ar

2021-03-30 14:11:46 175

原创 28scala隐式转换

scala隐式转换1. 目的增强功能2. 增强类package com.hpznyf.implicitSourceimport java.io.Fileimport scala.io.Sourceimport implicitAspect._object implicitApp { def main(args: Array[String]): Unit = { val man = new Man("张三") man.fly() val file = new

2021-03-29 16:15:16 64

原创离线项目之调优压缩

离线项目之调优1. 压缩压缩比：原始数据 vs 压缩后数据相同性能机器相同体积数据压缩后体积Snappy>LZ4>LZO>GZIP>BZIP2压缩比 BZIP2最大压缩时间BZIP2>GZIP>SNAPPY>LZ4>LZO2. 如何选择压缩比 VS 速度IO密集型split能不能切分，是根据压缩的格式来区分不能分片的话如果一个文件一个G 只能用一个maptask来处理GZIP 不能切BZIP2 可以切LZO 不能切有

2021-03-26 11:17:27 93

原创离线项目之维度统计

离线项目之维度统计1. 数仓分层数据运营层ODS : ETL之后的数据，接近原始数据 HDFS数据仓库层DWD: 和ODS 粒度一样，数据清洗数据服务层DWS: 汇总数据运用层APP: 为各种不同维度的报表提供维度支持维度表：DIM层ODS：HDFS上的数据清洗后直接落入ODS文本格式DWD：和ODS力度一样orc，parquet，压缩DWS：数据汇总、轻度汇总 (天，小时)APP：汇总 (天)#!/bin/shif [ $# -eq 1 ]; then tim

2021-03-23 15:30:54 141

空空如也

空空如也