- 博客(86)
- 收藏
- 关注
原创 hive 注释乱码问题
alter table COLUMNS_V2 modify column COMMENT varchar(256) character set utf8;alter table TABLE_PARAMS modify column PARAM_VALUE varchar(4000) character set utf8;
2024-06-06 16:38:29
131
原创 sentry权限控制
Apache Sentry是一个可以对Hadoop集群中的数据及元数据进行细粒度管理的权限管理系统。Sentry目前可以与ApacheHive,HiveMetastore / HCatalog,Apache Solr,Impala和HDFS(仅限于Hive表数据)等进行集成,对其数据进行权限管理。
2023-03-07 18:08:09
1277
原创 neo4j 简单使用
----------------------------查找一个人得所有关系。-----------------------------创建一个人得关系。-----------------------------删除所有。-----------------------------启动。-----------------------------导入。msql connect jar包放入plugins。
2022-09-06 17:48:57
566
原创 胖包 瘦包 配置
胖包 <pluginManagement> <plugins> <plugin> <groupId>net.alchim31.maven</groupId> <artifactId>scala-maven-plugin</artifactId>
2022-04-25 16:39:18
172
原创 CDH使用独立的Spark
CDH使用独立的Spark1. 下载安装spark2. 配置环境变量# vim ~/.bashrc export HADOOP_HOME=/opt/cloudera/parcels/CDH/lib/hadoopexport HADOOP_CONF_DIR=/etc/hadoop/confexport YARN_CONF_DIR=/etc/hadoop/confexport SPARK_CONF_DIR=/bigdata/spark/confexport SPARK_HOME=/dat
2022-02-25 16:51:03
1436
原创 SparkStreaming升级版_结构化流
SparkStreaming升级版+上Flink处理eventtime功能1. readStream读流专用 readStream最简单的版本: SparkSQL读取stream流 打印package com.cityos.spark.sssimport org.apache.spark.sql.{DataFrame, SparkSession}object WCApp { def main(args: Array[String]): Unit = { val spark
2021-12-24 18:06:02
973
原创 Spark源码分析
Spark源码分析Spark on YarnclientCluster本质区别,driver位置不同1)有哪些不同得进程?2)分别有什么作用?3)Spark作业执行流程是什么样的跑yarn有--master yarnCoarseGrainedExecutorBackend 默认executor有两个CoarseGrainedExecutorBackend SparkSubmitApplicationMaster跑Client有--master clientCoarseG
2021-12-07 10:26:48
1450
原创 Spark封装SQL作业
Spark封装SQL作业SQL ON HADOOP1. SparkSessionhive 支持--> 能够去操作Hive对应的Metastrore里面的数据spark.sql(......)ThriftServer <==> beeline/2.hive -eSQL通过UI配置 ==> 存储到某个地方 ==> mysql开发一个通用的SQL执行作业(一个或者一类)raw ⇒ ods ⇒ 各种维度的统计分析(可能会涉及到一系列的SQL)access
2021-12-01 11:41:44
2275
原创 Flink集群提交作业运行
Flink集群提交作业运行Slot: 槽位Task subTask 最底层: 运行在Slot上面进程:TaskManangerRunner1. 如何传入参数object parametersApp { def main(args: Array[String]): Unit = { /** * 对任何作业来说: 涉及到得参数分为2个类 * 1) 必填 * 2) 可选 * */ val parameters: ParameterT
2021-10-13 15:42:52
243
原创 Flink时间窗口
Flink时间窗口1. TimeEvent time:数据真正产生的时间access:time应该是属于数据/时间的一个部分watermark: 肯定和EventTIme相关 允许数据迟到多久优点:执行结果确定的乱序、延时缺点:延迟Ingestion time: 进入flink的时间与机器时间有关系Flink source operator 有关processiong time:业务执行的时间operator运行时间2. windowwindow: 窗口无限分类: 时
2021-09-30 18:15:25
388
原创 Flink Mysql 操作(scalikejdbc)
Flink Mysql 操作pom文件 <dependency> <groupId>mysql</groupId> <artifactId>mysql-connector-java</artifactId> <version>5.1.28</version> </depend
2021-09-27 15:35:49
195
原创 CDH WEB UI 详细解读 2021-09-26
CDH WEB UI 详细解读1. 配置常使用配置数据库迁移磁盘配置文件存储日志端口号如果服务挂了可以先查看status再查看var/message 看是不是OOM机制可以配置加上一些需要得图标
2021-09-27 09:19:59
488
原创 Flin对接Kafka实践
Flin对接Kafka实践 <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-connector-kafka_2.11</artifactId> <version>1.11.2</version> </dependency>
2021-09-24 15:21:00
133
原创 Flink 编程核心概念
Flink 编程核心概念1. 前期基础进行升华一些别的方式package com.ruozedata.flink.ByKeyimport org.apache.flink.api.scala._import org.apache.flink.streaming.api.scala.StreamExecutionEnvironmentobject SpecifyingKeysApp { def main(args: Array[String]): Unit = { val e
2021-08-11 08:38:28
131
原创 初识Flink
Flink批流一体支持数据类型编程模型 *DataStream ****Data source内置对接第三方自定义Transformationsink内置第三方自定义时间 & 窗口 & WM *****ConnectorState 状态管理Table API & SQL 1.11 和1.10 系列 完全不一样CEP项目: 搞一个 成数据接入到后面 全是实时的1. Flink 初用1.1 flink 批处理 <scala
2021-08-09 16:38:28
87
原创 SparkStreaming02增强 上集群 写hbase
SparkStreaming02增强 上集群代码展示package com.hpznyf.sparkstreaming.ss64import org.apache.kafka.common.serialization.StringDeserializerimport org.apache.spark.SparkConfimport org.apache.spark.streaming.kafka010.ConsumerStrategies.Subscribeimport org.apache.
2021-07-30 17:31:46
140
原创 Kafka03 调优、监控、故障案例
Kafka031. kafka调优acks: all 三个副本写完 ,才确认,保证系数高但是性能低buffer.memory: 536870912 --- 512Mcompression.type:snappyretries: 1000max.in.flight.requests.per.connection = 1 解决全局乱序得情况batch.size:10240字节 不是条数 -- 10M producer发送得数据max.request.size = 2097152
2021-07-27 09:05:35
245
原创 数仓项目一览
数仓项目一览1. 项目架构2. 需求分析了解数据维度表 dim_city.txtbj,bj01,朝阳bj,bj02,海淀js,js01,南京js,js02,宿迁zj,zj01,杭州zj,zj02,嘉兴sh,sh01,徐汇sh,sh02,虹口gz,gz01,广州gz,gz02,海珠维度表 dim_province.txtbj,北京js,江苏zj,浙江sh,上海gz,广州事实表 dw_user_click_d.txt 清洗过后得用户行为点击表day
2021-07-08 15:44:52
819
原创 Kyin 基础使用
Kyin1. 背景传统数仓架构,实际上只支持垂直扩展hadoop与BI平台衔接不成熟,无法提供高效得交互式查询在这个背景下,eBay 2013年 BI on Hadoop核心设计理念:Hive SparkSQL SQL等 sql on hadoop 框架 大规模得并行处理和列式存储对于大多数得数据表来说 维度和指标 基本上都可以确定预计算得概念 把数据计算完 存起来= 查询join group by = select = 能够节省一些计算2. 技术架构数据源: 实时 kafka/
2021-07-07 10:35:51
845
原创 数据仓库大保健
数据仓库文章目录数据仓库1. 范式2. 数据库 & 数据仓库 侧重点3. 维度基本概念4. 如何去设计一张表1. 范式范式:第零范式: 无重复数据第一范式:满足属性不可分 (例如购买信息(商品价格 , 商品数据))第二范式:在第一范式得基础上更进一步,确保数据库每一个字段都只和主键相管第三范式:确保数据表中得每一列数据都和主键直接相关,而不能间接相关在第二范式得基础上,属性只能直接依赖主键数据仓库和范式之间存在一种什么关系?维度建模中得星型模型: 在范式上符合第二范式订单表为
2021-06-30 14:42:46
122
原创 面试题01
面试题文章目录面试题1. java1. java多线程的常用创建方式有几种?分别是什么?继承Thread类, 直接new MyThread (Thread类也是实现了runnable接口)直接实现runnable接口 重写run方法ArrayList、HashSet、HashMap的底层实现ArrayList底层其实是创建了一个数组。 grow 为扩容 线程不安全...
2021-06-25 16:39:45
298
原创 Kafka02
Kafka02Kafka作用: 缓解上游业务高峰给下游带来得压力1. 核心概念kafka-topics.sh --create --zookeeper hadoop003:2181,hadoop004:2181,hadoop005:2181/kafka \--partitions 1 \--replication-factor 1 \--topic g9kafka-topics.sh --describe \--zookeeper hadoop003:2181,hadoop004:21
2021-06-23 15:33:16
178
原创 HBase01基础
HBase 基础需要 随机的 实时的 读写访问 采用HBase,分布式可扩展的大数据存储项目目标是为了大表的使用,数十亿行和数百万列Hive写非常难,主要采用load insertHBase非常轻松非常严格的读写表能自动的切分RegionServers 故障转移1. 安装0.98版本很经典官网1.6.02.2.5为稳定版本CDH5.X 1.2.0 ->Spark 2.6.0CDH7.X 2.1.0 -> Hadoop3.0采用hbase-1.2.0
2021-06-02 14:45:40
247
1
原创 26离线项目之数据收集进阶
离线项目之数据收集进阶1. 自定义flume sourcepom<flume.version>1.6.0-cdh5.16.2</flume.version> <dependency> <groupId>org.apache.flume</groupId> <artifactId>flume-ng-core</artifactId>
2021-05-31 16:59:22
81
原创 ElasticSearch02
ElasticSearch021. API 使用 <dependency> <groupId>org.elasticsearch.client</groupId> <artifactId>elasticsearch-rest-high-level-client</artifactId> <version>7.9.1</version>
2021-05-13 08:35:45
68
原创 SparkCore11 优化+内存管理
SparkCore11 优化1. 调优点https://tech.meituan.com/2016/04/29/spark-tuning-basic.html避免创建重复得RDD对于同一份数据不要创建多个RDD,会增加作业得性能开销尽可能复用同一个RDD对多次使用得RDD进行持久化.cache() Lazy 操作cache只有一个默认的缓存级别MEMORY_ONLY ,而persist可以根据情况设置其它的缓存级别。尽量避免使用shuffle算子但实际上无法避免使用map-side得
2021-05-11 16:37:41
83
原创 SparkCore10 shuffle
SparkCore10 shuffle1. 官网shufflehttp://spark.apache.org/docs/2.4.6/rdd-programming-guide.html#shuffle-operations2. 发展史0.8 之前 Hash Based shuffle0.8.1 之后 File Consolidation机制0.9: ExternalAppendOnlyMap1.1:sort based shuffle default:hash1.2:default:sor
2021-05-11 09:45:44
80
原创 SparkCore09
SparkCore091. 将封装成工具类sparkcontext工具类import org.apache.spark.sql.SparkSessionimport org.apache.spark.{SparkConf, SparkContext}object ContextUtils { def getSparkContext(appName: String, master:String = "local[2]") ={ val sparkConf = new SparkConf
2021-04-27 15:15:34
100
原创 SparkStreaming04
SparkStreaming04checkpoint使用/** 如何在生产上使用checkpoint * */object StateAppV3 extends Logging{ def main(args: Array[String]): Unit = { val checkpoint = "chk2" def functionToCreateContext(): StreamingContext = { val sparkconf = new SparkCon
2021-04-23 14:45:49
51
原创 SparkStreaming03
SparkStreaming03高德地图逆地理转码package com.hpznyf.HTTPAppimport com.alibaba.fastjson.JSONimport org.apache.http.client.methods.HttpGetimport org.apache.http.impl.client.HttpClientsimport org.apache.http.util.EntityUtilsobject HttpClientApp { def main(
2021-04-21 16:45:08
72
原创 kafka-eagle安装部署
Kafka-eagle集群安装部署下载解压kafka-eagle-bin-2.0.1.tar.gz配置环境变量export KE_HOME=/home/hadoop/app/keexport PATH=$PATH:$KE_HOME/bin在我的Kafka启动脚本前加: (我的脚本里面有了)cd ${KAFKA_HOME}export JMX_PORT=9988nohup bin/kafka-server-start.sh config/server.properties &改
2021-04-02 13:21:54
239
原创 Kafka01
Kafka文章目录Kafka1. kafka 部署2. kafka 启动脚本编写3. kafka Topic1. kafka 部署消息中间件mysql–>maxwell–>kafka–>ss/flink–>hbase存储数据缓冲上游业务高峰给下游带来的压力作业夯住流式平台发布&订阅: 类似一个消息系统,读写流式的数据处理: 可以编写可扩展的流式app,用于实时事件的响应存储: 副本备份,容错的集群https://docs.cloudera.com/do
2021-04-02 13:20:47
102
原创 scala泛型
scala泛型1. 泛型例子object GenericApp { def main(args: Array[String]): Unit = {// new weChatMsg("hello")// new DigitMsg(12) val mm1 = new MM[Int, CupEnum, Int](90, CupEnum.G, 160) val mm2 = new MM[Int, CupEnum, Int](80, CupEnum.C, 170)
2021-03-31 13:49:16
101
原创 scala 读取操作 scalalikejdbc
scala 读取操作1. 读文件object FileApp { def main(args: Array[String]): Unit = { val lines = Source.fromFile("data/input/ck").getLines() for(line <- lines){ println(line) } }}2. 读控制台/** * 读取控制台 */object scannerApp { def main(ar
2021-03-30 14:11:46
175
原创 28scala隐式转换
scala隐式转换1. 目的增强功能2. 增强类package com.hpznyf.implicitSourceimport java.io.Fileimport scala.io.Sourceimport implicitAspect._object implicitApp { def main(args: Array[String]): Unit = { val man = new Man("张三") man.fly() val file = new
2021-03-29 16:15:16
64
原创 离线项目之调优 压缩
离线项目之调优1. 压缩压缩比: 原始数据 vs 压缩后数据相同性能机器 相同体积数据压缩后体积Snappy>LZ4>LZO>GZIP>BZIP2压缩比 BZIP2最大压缩时间BZIP2>GZIP>SNAPPY>LZ4>LZO2. 如何选择压缩比 VS 速度IO密集型split能不能切分 ,是根据压缩的格式来区分不能分片的话 如果一个文件一个G 只能用一个maptask来处理GZIP 不能切BZIP2 可以切LZO 不能切 有
2021-03-26 11:17:27
93
原创 离线项目之维度统计
离线项目之维度统计1. 数仓分层数据运营层ODS : ETL之后的数据,接近原始数据 HDFS数据仓库层DWD: 和ODS 粒度一样,数据清洗数据服务层DWS: 汇总数据运用层APP: 为各种不同维度的报表提供维度支持维度表:DIM层ODS:HDFS上的数据清洗后直接落入ODS文本格式DWD:和ODS力度一样orc,parquet,压缩DWS:数据汇总、轻度汇总 (天,小时)APP:汇总 (天)#!/bin/shif [ $# -eq 1 ]; then tim
2021-03-23 15:30:54
141
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人