
大数据
文章平均质量分 72
Foools
这个作者很懒,什么都没留下…
展开
-
Clickhouse学习整理
前言吃水不忘挖井人,我看的视频课:https://www.bilibili.com/video/BV1Yh411z7os?spm_id_from=333.337.search-card.all.click我看的参考书是下面这本,整体介绍很全面,但是不用全都读,需要的地方看一看就好,有几章废话很多…但是整体质量不错Clickhouse学习笔记clickhouse:列式存储数据库,C++编写,主要用于在线分析处理查询(OLAP),支持SQL,多主架构(客户端访问任何一个节点效果相同)适合的场景:大体原创 2022-03-23 22:46:02 · 1958 阅读 · 0 评论 -
Hive学习整理
写在前面吃水不忘挖井人视频课地址:https://www.bilibili.com/video/BV1W4411B7cN?from=search&seid=3089375730995965944&spm_id_from=333.337.0.0学习参考书籍:书中内容需要拥有hive和hadoop的基础,通读一遍感觉还需要在实际工作中翻读,但是也算有些收获Hive学习笔记环境变量的配置sudo vim /etc/profile.d/my_env.sh加入信息:export H原创 2022-02-08 03:27:26 · 726 阅读 · 0 评论 -
Hadoop学习整理
前言吃水不忘挖井人,我看的课是这个,课程带着安装,搞虚拟机,很详细,推荐一波思维导图环境Hadoop102:cd / 表示的是返回/cd ~ 表示的是返回/home/fools$HADOOP_HOME 配置的位置为/opt/module/hadoop-3.1.3集群出现问题如果某个集群namenode或datanode等出现异常,这时候只要先停掉每个集群sbin/stop-xxxxx.sh,删除每个服务器的data,logs目录rm -rf data/ logs/,然后再初始化hdfs原创 2022-01-27 04:31:52 · 1981 阅读 · 1 评论 -
《NoSQL精粹》了解NoSQL这一篇就够了
前言本博客写于阅读完《NoSQL精粹》这本书之后,作为一篇读书笔记,想要了解NoSQL的朋友可以从这个博客里面整理一些知识,也希望熟练NoSQL的朋友读完也有收获首先对NoSQL进行一个简单的介绍,最初的NoSQL表示的是“开源分布式的非关系型数据库”,但是NoSQL具体含义是什么并没有一个权威的定义,实际上大部分人的定义是“not only sql”,而并非是对sql说不,不用去纠结为什么不是NOSQL而是NoSQL,我们只需要理解NoSQL表示的是一般具有开源特征,不适用SQL,为了在集群中使用(不原创 2021-09-09 22:52:25 · 709 阅读 · 0 评论 -
Blink中的维表join及优化
我觉得本篇博客算是性能优化的一个补充,性能优化篇:Blink性能优化配置及原理文章目录双流john维表join以及优化维表join开启cache策略缓存未命中 keyDistribute By 提高缓存命中率Partitioned All Cache 解决超大维表 JOINAsync维表join优化最佳实践双流john• 支持等值连接和不等值连接• 支持 INNER JOIN, LEFT JOIN, RIGHT JOIN, FULL JOIN, ANTI JOIN, SEMI JOIN• 不等原创 2021-02-04 15:25:12 · 1065 阅读 · 0 评论 -
Blink/Flink作业 性能优化配置及原理
高性能作业指南本文通过代码和一些配置信息来优化blink/flink作业的性能。共分为几部分:1.group aggregate优化:开启minibatch,开启localglobal,开启partialfinal,count distinct改写为agg with filter(count distinct优化)2.topN优化使用UpdateFastRank算法:order by sum(正数) desc 时,要加上正数的过滤条件;topN输出不带rownum,输出时再排序一次;增大topN原创 2021-02-03 10:24:03 · 2278 阅读 · 0 评论 -
Blink/Flink 实践案例中的知识点整理
文章目录实践案例的知识点整理确定最终付款交易时间和订单确定时间如何判断有效订单点击次数作为PV、对客户的IP去重作为UV怎么解决数据倾斜?滚动窗口 全站总人数及走势热门直播房间排行去重操作流计算回撤统计问题实践案例的知识点整理实践案例部分在内部文档中有更多的案例,但是内容很重复,学习过程中经常看到一样的内容,我认为在这部分的阅读过程中不需要像我一样把所有的案例都读一遍,只需要看我下面整理的问题就可以了,难度并不大。推荐的方法是详细看一下我整理的在实际案例中遇到问题的解决方法,然后再略读实践案例的内容。原创 2021-02-03 10:24:18 · 1052 阅读 · 0 评论 -
maven配置本地仓库,jdk
maven配置本地仓库,jdk背景步骤本地仓库配置JDK 配置背景下载好maven之后,配置好环境变量,还需要配置本地仓库和jdk,下面进行演示。步骤首先打开maven安装目录下的settings文件本地仓库配置设置路径,这个位置表示的是以后maven下载的jar包都会存放在这里JDK 配置设置jdk信息,注意这段代码放置的位置 <profile> <id>jdk-15.0.1</id> <activation&原创 2021-01-11 11:28:23 · 452 阅读 · 0 评论 -
Flink运行时的组件(JobManager, TaskManager, ResourceManager, Dispatcher)
原创 2021-01-09 17:06:12 · 564 阅读 · 0 评论 -
linux运行flink后,无法访问localhost:8081 (localhost未发送任何数据)
项目场景:电脑:thinkpad x1 carbon win7虚拟机:virtual box centos7flink版本1.4.2问题描述:在默认配置情况下,正常启动flink后访问localhost:8081,显示启动成功。输入网址localhost:8081,显示如下情况。原因分析:主要是网络配置的原因,具体原因我也不懂,但是配置好了网络就解决了。解决方案:下面三个方案按顺序来一遍,应该问题是可以解决的。方案一:首先检查iptables,关闭自己的防火墙,这条命令原创 2021-01-09 16:54:34 · 14645 阅读 · 1 评论 -
flink中 有状态计算(statefu)和无状态计算(stateless)的区别
一、有状态计算,无状态计算apache flink来说,是支持有状态计算的。无状态计算可以类比一下select操作,来一条,操作一条,数据不用留在系统里面。有状态计算可以类比一下count,sum操作,这时候就需要缓存之前的数据,才可以实现,这样的计算就是有状态的。...原创 2021-01-02 10:38:03 · 2189 阅读 · 0 评论 -
SQL JOIN LEFT JOIN OUTER JOIN
https://www.cnblogs.com/reaptomorrow-flydream/p/8145610.html转载 2020-12-10 10:21:12 · 203 阅读 · 0 评论 -
如何进入大数据领域,学习路线是什么?
学习大数据首先我们要学习Java语言和Linux操作系统,这两个是学习大数据的基础,学习的顺序不分前后。学习路线Java大家都知道Java的方向有JavaSE、JavaEE、JavaME,学习大数据要学习那个方向呢?只需要学习Java的标准版JavaSE就可以了,像Servlet、JSP、Tomcat、Struts、Spring、Hibernate,Mybatis都是JavaEE方向的技术在大数据技术里用到的并不多,只需要了解就可以了,当然Java怎么连接数据库还是要知道的,像JDBC一定要掌握一下。转载 2020-11-30 20:23:05 · 207 阅读 · 0 评论 -
入门大数据基础:Hadoop,hive,oozie,flume,hbase,kafka,spark,shell,redis,zookeeper都是什么?
文章目录前言一、Hadoop二、Hive三、oozie四、Flume五、Hbase六、 Kafka七、Spark八、 shell九、Redis十、zookeeper总结前言目前博主在实习,做大数据相关,从头开始学大数据,遂整理了一波大数据入门的工具都是什么的整理,尽量简洁说明白这些东西都是啥。首先举例一个流程,可以辅助理解:一、HadoopHadoop是Apache开源组织的一个分布式计算开源框架(http://hadoop.apache.org/),用java语言实现开源软件框架,实.原创 2020-12-01 17:21:51 · 1102 阅读 · 0 评论