- 博客(122)
- 资源 (5)
- 收藏
- 关注

原创 图说hadoop原理
hadoop=hdfs+mapreducemap:五步走reduce:三步走shuffle:这是文本人学习hadoop提出的问题加网络学习图1.分块是在哪里完成的【或者:有多少个map】?2.分布式系统都强调一致性,datanode的是什么一致性?3.WAL有什么作用?4.Hbase支持事务吗?请点击有道云笔记链接:文档:hadoop学习系统.not...
2020-05-06 10:03:54
190
1
原创 distinct为什么比group by慢
2.spark sql中的group by 在优化时=reducebykey。1.spark core中,网络传输的数据少。distinct 大概率是groupby。
2023-10-24 16:13:41
226
原创 spark api submit
参考::Spark2.3(四十):如何使用java通过yarn api调度spark app,并根据appId监控任务,关闭任务,获取任务日志 - cctext - 博客园
2022-04-06 17:13:44
88
原创 scala伴生对象的反射
private val currentClass = Class.forName("com.compute.biz.clue.streaming.SyncClueStreamingFunctions$")private val currentObj = currentClass.getField("MODULE$").get(null)// 所有方法的map,(methodName->method)private val methodMap = currentClass.getDeclared.
2022-01-25 09:29:16
350
转载 spark ML
参考:https://www.cnblogs.com/nxf-rabbit75/category/1572700.html?page=1
2021-09-09 14:42:42
94
原创 一个流和百亿级的表的join
以spark为例:分治 val kafkaManager = new KafkaManager(kafkaParams) val kafkaDirectStream = kafkaManager.createDirectStream[String, String, StringDecoder, StringDecoder](ssc,kafkaParams,topicSet) val res = kafkaDirectStream .filter(l => l._2.c...
2021-06-09 22:22:34
359
2
转载 hive对复杂数据结构的处理map,array,struct
参考blog:https://zhuanlan.zhihu.com/p/150361645
2021-04-30 16:01:23
185
1
原创 posexplode
hive的高级函数的使用 参考blog:https://www.cnblogs.com/-courage/p/14122106.html
2021-04-30 09:27:01
220
原创 目标检索偶感
目标检索:定义:目标生成的特征是唯一的,在各个层次中都会携带这一特征。卷积:就是把这一特征,以新的方式展示出来,方便计算,存储,传输,增强等最后:经过反卷积,解出特征,在与目标进行比对,选择。...
2021-02-13 21:38:48
230
原创 spark的获取文件名称
spark的获取文件名称:rdd中获取http://cn.voidcc.com/question/p-yhavvflg-bhx.htmldf中获取还有一个是通过使用functions.input_file_name
2021-02-08 16:32:16
550
原创 特殊的hadoop
特殊的hadoop 1.没有reducer的demo: job.setNumReduceTasks(0);https://blog.youkuaiyun.com/boonya/article/details/54630808?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522161242952716780264021789%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%25...
2021-02-04 17:30:26
123
转载 DAG调度器
参考:https://houbb.github.io/2020/01/23/data-struct-learn-03-dag-schedule#%E8%B0%83%E5%BA%A6%E5%99%A8https://blog.youkuaiyun.com/dbqb007/article/details/89042984https://blog.youkuaiyun.com/silentwolfyh/article/details/53996845个人理解:调度器的目的:让各个节点按照顺序执行...
2020-11-03 10:43:41
260
原创 ES的操作,以及ES搭建二级索引
参考2篇blog注:优快云上关于这这个二级索引,例子单一,使用起来不是太合适ES6.5的操作:https://www.cnblogs.com/LUA123/p/9967638.htmlES简历二级索引:https://github.com/hyydouble/es-hbase/blob/master/src/main/java/com/daqsoft/AppMain2.java...
2020-10-19 15:28:49
948
原创 centos7安装单机版k8s
参考:https://lihaoquan.me/2017/2/25/create-kubernetes-single-node-mode.html
2020-10-14 19:52:24
607
转载 spark的累加器
在学习这个点的时候,问自己几个问题:1.累加器有什么用2.典型的应用场景3.怎么用4.是否可以自定义https://www.cnblogs.com/itboys/p/11056758.html
2020-09-28 16:48:20
128
转载 Hive指定查询输出分隔符
参考:https://blog.youkuaiyun.com/yeweiouyang/article/details/52560130
2020-09-26 18:05:48
431
转载 一篇文章看懂大数据的5大关键技术
大数据技术,就是从各种类型的数据中快速获得有价值信息的技术。大数据领域已经涌现出了大量新的技术,它们成为大数据采集、存储、处理和呈现的有力武器。大数据处理关键技术一般包括:大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等)。1.大数据采集技术数据采集是指通过RFID射频数据、传感器数据、社交网络交互数据及移动互联网数据等方式获得的各种类型的结构化、半结构化(或称之为弱结构化)及非结构化的海量数据,是大数据知识服务模型的
2020-09-11 11:34:43
13152
转载 k8s从入门到精通,普通讲解
转载自:https://blog.youkuaiyun.com/laughing_g/category_9128851.html?biz_id=102&utm_term=k8s%E4%BB%8E%E5%85%A5%E9%97%A8%E5%B8%A6%E7%B2%BE%E9%80%9A&utm_medium=distribute.pc_search_result.none-task-blog-2~all~sobaiduweb~default-0-category_9128851.html&sp
2020-09-10 16:23:49
408
原创 k8s的yml文件详解
1 apiVersion: v1 #指定api版本,此值必须在kubectl apiversion中 2 kind: Pod #指定创建资源的角色/类型 3 metadata: #资源的元数据/属性 4 name: django-pod #资源的名字,在同一个namespace中必须唯一 5 labels: #设定资源的标签,使这个标.
2020-09-10 16:22:26
1504
原创 springboot项目部署:jar包,docker,k8s,nginx
2篇blog结合起来看,一个完整的过程。如有问题请评论。1.sprignboot项目打包https://www.jianshu.com/p/3ef30964110c2.docker运行springboot项目https://blog.youkuaiyun.com/qq_39354563/article/details/1049626303.jar部署在nginx上【还未验证】https://blog.youkuaiyun.com/u014174854/article/details/80464391.
2020-09-02 23:30:54
263
转载 spark源码分析--driver,worker,app,excutor启动流程等
参考blog:https://blog.youkuaiyun.com/fengshaungme/category_8442249.html
2020-07-29 16:39:56
169
原创 CDH5.7.6搭建
说明:操作系统centos7注解:centos6.8也是如图步骤0准备:0.0总体规划IP地址 主机名 CPU 内存 备注 192.168.1.5 node1 2颗 x 2核 4GB 主节点 192.168.1.6 node2 2颗 x 1核 2GB 192.168.1.7 node3 2颗 x 1核 2GB 192.168.1..8 node4 2颗 x 1核..
2020-07-26 23:57:18
525
原创 spark读取的源+mysql+hive+jison+parquet+csv+hbase
连接这些数据源,请参考mysql+hive+jison+parquethttps://blog.youkuaiyun.com/qq_18603599/article/details/799518102.csvhttps://blog.youkuaiyun.com/fei_tian123/article/details/80624937?utm_medium=distribute.pc_aggpage_search_result.none-task-blog-2~all~baidu_landing_v2~default-
2020-07-19 21:32:26
143
原创 linux安装mysql和遇到的问题
1.mysql安装https://www.jianshu.com/p/276d59cbc529问题1.Starting MySQL...[ERROR] The server quit without updating PID file (/usr/local/mysql/data/mysqld.pid).解决:1.可能是/usr/local/MySQL/data/mysqld.pid文件没有写的权限解决方法 :给予权限,执行“chown -R mysql:mysql /usr/l.
2020-07-19 20:54:26
149
转载 hbase api
自己在学习时候使用参考:https://blog.youkuaiyun.com/aA518189/article/details/85298889
2020-07-12 14:33:56
126
转载 大数据多维分析平台的实践
大数据多维分析平台的实践一、 大数据多维分析平台搭建的初心随着公司业务量的增长,基于传统关系型数据库搭建的各种报表查询分析系统,性能下降明显。同时由于大数据平台的的日趋完善,实时的核心业务数据逐步进入大数据平台。数据进入了大数据平台,相伴而来的是各种业务需求,这里主要聚焦在如何高效稳定的基于大数据平台的数据进行查询。通过分析,我们面临的挑战如下:亿级别表下任意维度和时间跨度的高效的统计查询 业务分析的维度越来越多,是否可以提供一个灵活的多维度组合查询的工具,而不是针对不同的维度组合开发不同的.
2020-07-10 12:53:15
1326
原创 大数据资源总结汇总
大数据架构采集存储分析计算应用服务https://www.cnblogs.com/dunitian/p/5461280.html
2020-07-09 09:44:40
206
转载 yarn集群启动之脚本追踪
在学习源码的过程中,一般都是先看原理,在各个部件熟悉的时候,使用脚本把怎个系统贯穿起来。转载自:https://blog.youkuaiyun.com/oTengYue/article/details/105161007
2020-07-01 16:11:50
273
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人