- 博客(29)
- 收藏
- 关注
原创 Doris
初识doris的那些基本概念(数据模型如聚合模型,ROLLUP)https://www.icode9.com/content-4-826929.htmldoris官方文档http://doris.apache.org/master/zh-CN/sql-reference/sql-statements/Data%20Definition/CREATE%20TABLE.html#description
2021-09-07 15:54:55
249
原创 数据建模理论
Inmon范式模型http://www.360doc.com/content/20/1006/18/68247788_939173668.shtmlKimball纬度建模数据仓库查询性能优先星型模型星型模型是反范式的。多维数据集每个维度都直接与事实表相连接,不存在渐变维度,所以数据有冗余。美团数据仓库建设实践美团数据仓库建设实践规范(1) 词根词根是维度和指标管理的基础,划分为普通词根与专有词根,提高词根的易用性和关联性。普通词根:描述事物的最小单元体,如:交易-trade。专有词
2021-08-31 10:22:03
476
原创 Flink入门
flink简介https://blog.youkuaiyun.com/qq_35423154/article/details/1137598911. environmentflink任务在提交计算时,首先与flink框架建立联系,获取了环境信息才能将task调度到不同的任务管理者那里执行。2.SourceFlink框架从不同的数据源获取数据,随后框架对数据进行处理1)从数据集合中读取数据一般将数据临时加载入内存中,形成特殊的数据结构。作为数据源使用2)从文件中读取数据比较常见的是将日志文件作为数据源.
2021-08-25 11:27:16
142
原创 Spark入门
Spark参见:https://blog.youkuaiyun.com/c391183914/article/details/78672555#21-%E9%9B%86%E7%BE%A4%E8%A7%92%E8%89%B2spark是什么?Spark是一种快速、通用、可扩展的大数据分析引擎Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、Spark Streaming、GraphX、MLib、SparkR等子项目,Spark是基于内存计算的大数据并行计算框架。Spark内置
2021-08-24 16:47:38
80
原创 kafka
目录kafka各概念新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入kafka各概念消费者、生产者主题topic:消费者通过订阅相应主题来获取消息分区partition:主题里可以有多个分区代理broker:一个代
2021-08-06 14:55:32
77
原创 LaTex debug日记
Package amsmath Error: \dot allowed only in math mode.H微分显示不出来解决办法:前后加上 $ ,即可讲了公式环境https://zhidao.baidu.com/question/316631297.html
2021-04-11 11:29:47
2563
原创 论如何丝滑的写论文
NoteExpress上搜索文献,下载文献,记录笔记(心得)在该软件上的预览部分改为BibTex格式------方便后续引用文献。右键题录->复制BibTex引用在用快贴,云剪切板功能。各个设备交互,爽歪歪!用laltex模版,写论文。方便的一批!...
2021-04-02 21:07:59
109
原创 大数据面经
大数据面经1. 数据库和数据仓库的区别数据库数据仓库用途事务处理数据分析特点* 复杂的表格结构,存储结构相对紧致,少冗余数据* 读写都有优化* 相对简单的读写请求,单次作用于相对少量的数据* 简单的表结构,存储结构相对松散,冗余数据多* 一般只是读优化* 相对复杂的读请求,作用于大量数据特点解析:存储空间对比大量冗余数据基本读操作需要表的关联才能查到所需要的信息牺牲空间 换 查询效率。记录在同一张表上大数据读操作单点多点-分布式
2021-03-26 17:10:18
119
原创 HBase专项
HBase概述HBase是Hadoop的数据库,HBase是一个分布式的、面向列的开源数据库,它不同于一般的关系数据库,是一个适合非结构化数据存储的数据库。HBase利用Hadoop的HDFS作为其文件存储系统,利用ZooKeeper作为其协调工具,非常适合用来进行大数据的实时读写。HBase表是一个稀疏多维表,表中的数据是未经解释的字符串,没有数据类型,每一行都有一个行键,表被分组成许多列族集合,列族支持动态扩展,可以很方便地添加一个列族或列,无须事先预定于列的数量和类型,所有列都是以字符串形式存储。
2021-03-26 17:09:42
181
原创 MapReduce专项
MapReduce详解Hadoop MapReduce 也采用了 Master/Slave(M/S)架构,具体如图所示。它主要由以下几个组件组成:Client、JobTracker、TaskTracker 和 Task。 下面分别对这几个组件进行介绍25.1.3.1. Client用户编写的 MapReduce 程序通过 Client 提交到 JobTracker 端; 同时, 用户可通过 Client 提供的一些接口查看作业运行状态。 在 Hadoop 内部用“作业”(Job) 表示 MapRed
2021-03-26 17:08:59
270
1
转载 CPP面试汇总
1. 语言基础 (C/C++)(0) 指针和引用的区别指针是一个新的变量,指向另一个变量的地址,我们可以通过访问这个地址来修改另一个变量;而引用是一个别名,对引用的操作就是对变量的本身进行操作指针可以有多级,引用只有一级传参的时候,使用指针的话需要解引用才能对参数进行修改,而使用引用可以直接对参数进行修改指针的大小一般是4个字节,引用的大小取决于被引用对象的大小指针可以为空,引用不可以。(1)在函数参数传递的时候,什么时候使用指针,什么时候使用引用?需要返回函数内局部变量的内存的时候用
2021-03-26 14:49:03
5152
3
原创 大数据面试题
8. 大数据1. 介绍一下HadoopHadoop是一套大数据解决方案,提供了一套分布式的系统基础架构,包括HDFS,MapReduce和YARN。HDFS提供分布式的数据存储MapReduce负责进行数据运算YARN负责任务调度HDFS是主从架构的,包括namenode,secondary namenode和datanode。datanode负责存储数据,namenode负责管理HDFS的目录树和文件元信息。MapReduce包括jobtracker,tasktracker和client
2021-03-26 14:42:05
347
1
原创 Yarn专项
Yarn概述1. 概念YARN 是一个资源管理、任务调度的框架,主要包含三大模块:ResourceManager(RM)、NodeManager(NM)、ApplicationMaster(AM)。其中,ResourceManager 负责所有资源的监控、分配和管理; ApplicationMaster 负责每一个具体应用程序的调度和协调;NodeManager 负责每一个节点的维护。对于所有的 applications,RM 拥有绝对的控制权和对资源的分配权。而每个 AM 则会和 RM 协商资源
2021-03-25 21:48:19
391
2
原创 数据结构与算法题
二分及变形文章目录二分及变形基础二分整数二分 算法模板浮点数二分 算法模板二分变形leetcode [410. 分割数组的最大值](https://leetcode-cn.com/problems/split-array-largest-sum/)leetcode [875. 爱吃香蕉的珂珂](https://leetcode-cn.com/problems/koko-eating-bananas/)leetcode [1011. 在 D 天内送达包裹的能力](https://leetcode-cn.co
2021-03-24 17:34:52
1579
原创 HDFS专项
HDFS概述使用场景:一次写入,多次读取,且不支持文件的修改优缺点组织架构3)Client:就是客户端。 (1)文件切分。文件上传HDFS的时候,Client将文件切分成一个一个的Block,然后进行上传; (2)与NameNode交互,获取文件的位置信息; (3)与DataNode交互,读取或者写入数据; (4)Client提供一些命令来管理HDFS,比如NameNode格式化; (5)Client可以通过一些命令来访问HDFS,比如对HDFS增删查改操作;4)Seco
2021-03-24 16:50:38
141
原创 zookeeper原理
文章目录zookeeper概述1. 工作机制2. zookeeper特点3. zookeeper数据结构4. 应用场景zookeeper内部原理1. 选举机制2. 监听器原理3. 写数据原理zookeeper概述1. 工作机制存储和管理关心的数据,然后接受观察者的注册,一旦这些数据的状态发生变化,zookeeper将通知在zookeeper上注册的观察者做出反应2. zookeeper特点一个领导者,多个跟随者组成的集群集群中只要半数以上节点存活,集群就能正常工作全局数据一致,每个服务器保存
2021-03-24 11:31:43
99
原创 大数据基础入门 ------文章来源于:某个入门课程
什么是大数据?大量的数据举例:1、商品推荐: 问题:(1)大量的订单如何存储? (2)大量的订单如何计算?2、天气预报: 问题:(1)大量的天气数据如何存储?(2)大量的天气数据如何计算?大数据本质:存储和计算的问题分布式文件系统(分布式存储)分布式计算java和大数据的关系hadoop :基于Java语言开发spark: 基于Scala语言,Scala基于Java语言学习大数据需要的基础和路线Java基础(JavaSE)—> 类、继承、I/O、反射、泛型****
2021-03-23 16:28:58
260
原创 博客美化
其实是竞品的美化啦https://bndong.github.io/Cnblogs-Theme-SimpleMemory/v1.1/#/一个很漂亮的主题等js权限下来再说各种都可以定制
2021-03-23 13:41:40
79
原创 垃圾回收GC
垃圾回收GC追踪所有正在被使用的对象,将不被使用的标记为垃圾。手动管理用malloc和free 或者 new / delete手动回收智能指针基于引用计数,比如c++里面的智能指针,当引用计数为0时,回收该对象。自动内存管理引用计数可能会出现,互相引用 无法回收。c++中可用weak_ptr 弱引用标记并清除...
2021-03-22 21:01:35
78
原创 typora相关
typora图床配置配置typoraInstall PicGo-Core via node package manager (Requires NodeJS runtime)npm install picgo -g# oryarn global add picgoThen you can input “which picgo” in terminal to get its actual installed location, then, select “Custom Command” as
2021-03-21 20:53:52
320
原创 让你的Mac更好用
有个免费软件叫 Mos,能够单独设置滚动方向,还能平滑鼠标滚动效果,和任何鼠标都能搭配使用,还可以独立管理每个应用程序的滚动行为一款免费的 MacOS 鼠标平滑滚动增强工具,Mos for MacOS 可以帮您让普通 USB 鼠标也能有平滑滚动效果https://mos.caldis.me/LG UltraFine 4K 23.7 英寸显示屏 mac拓展屏https://www.apple.com.cn/shop/product/HMUA2CH/Ahttps://www.zhihu.com/s.
2021-03-21 18:11:31
156
原创 使用Hexo + gitee搭建个人博客
hexo本地首先安装node.js#方式一:mac CLI安装brew install node#方式二:通过cnpm CLI安装#npm的下载源在国内,cnpm的下载源在国内#通过cnpm下载nodenpm install -g cnpm --registry=http://registry.npm.taobao.orgnode -v #查看版本npm -v安装私人博客框架HEXOcnpm install -g hexo-clihexo -v新建一个文件夹
2021-03-21 00:03:54
150
原创 Linux常用命令
文本查找grepgrep -v #不含某个字符串findfind <路径> -name "A" #在路径中查找含A的文件find <路径> -path <排除路径> -prtune -o -name "A" #排除某个路径,再查找
2021-03-20 15:48:54
51
原创 Hadoop环境安装
Hadoop环境安装 (CLI)主要参考:https://blog.youkuaiyun.com/qq_36561697/article/details/80994405https://blog.youkuaiyun.com/weixin_38883338/article/details/82928809https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/stable2/创建新用户$ sudo useradd -m hadoop -s /bin/b
2021-03-20 15:28:34
162
原创 Python机器学习及实践 课后小题
Python机器学习及实践-----从零开始通往Kaggle竞赛之路第二章 2.3章末小结机器学习模型按照使用的数据类型,可分为监督学习和无监督学习两大类。第二章 2.3章末小结机器学习模型按照使用的数据类型,可分为监督学习和无监督学习两大类。监督学习主要包括分类和回归的模型。分类:线性分类,支持向量机(SVM),朴素贝叶斯,k近邻,决策树,集成模型(随机森林(多个决策树)等)。回...
2020-02-09 14:33:46
1277
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人