- 博客(65)
- 收藏
- 关注
原创 三面技术(运维)
在Hadoop2.x之后的版本中,文件块的默认大小是128M,老版本中默认是64M;3、迁移过来,要确保数据一致性和完整性 查:count(*)orcle 一般多少多少条 (测试数据用的200多万条,每天大概增量数据 10个 200-300万条 和全量数据有一千万)1、mysql中建有orcle对应的表,mysql有些数据类型不一样,比如:vachar,把orclr存。看orcle对应的数据类型和mysql有什么不一样,和orcle不一样的对应存储。(数据迁移的步骤,纯听他人口述)
2024-07-30 14:16:45
608
原创 Hive复习
Hive是由Facebook开源,基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。做海量数据的分析计算。
2024-06-07 16:11:01
964
原创 hdfs复习
1).高可靠性:hadoop底层多个数据副本,即使某个计算节点存储出现故障,不会导致数据丢失。2).高扩展性:可以动态增加服务器节点。3).高效性:在MapReducer思想下,hadoop并行工作,加快任务处理速度。4).高容错性:能将失败的任务,进行自动分配。
2024-06-03 15:08:54
796
原创 TCHouse-C
地域(Region)指腾讯云数据仓库 TCHouse-C 物理服务器所在的地理区域。腾讯云不同地域之间网络完全隔离,购买后不能更换。地域一旦选定,购买后无法更改。2.
2024-04-14 17:14:30
932
原创 常见的系统进程
Load average 是 CPU 负载的评估,其值越高,说明其任务队列越长,处于等待执行的任务越多。通过 top 观察,类似如下图所示,CPU 很空闲,但是 load average 却非常高。安全组是一种有状态的包过滤虚拟防火墙,用于设置单台或多台云服务器的网络访问控制,是腾讯云提供的重要的网络安全隔离手段。System Idle Process:系统空间进程,显示 CPU 空闲时间百分比。执行以下命令,查看进程状态,并检查是否存在 D 状态进程。svchost:系统进程,用于执行 DLL。
2024-04-14 13:45:34
204
原创 Linux入门
RPM(RedHat Package Manager),RedHat软件包管理工具,类似windows里面的setup.exe是Linux这系列操作系统里面的打包安装工具,它虽然是RedHat的标志,但理念是通用的。RPM包的名称格式。
2024-03-18 19:54:28
1027
原创 解决idea各种奇葩报错(前提代码正确)
3.重新打开工程,基本上可以解决(具体情况具体分析)1.当idea中报错,把idea系统关掉。2.删除.idea中原有的配置。
2024-03-10 16:26:13
478
原创 数仓面试-2024/03/06 第二个面试
Hadoop作业调度器主要有三种:FIFO、容量(Capacity Scheduler)和公平(Fair Scheduler)。的资源调度器是Capacity Scheduler。框架默认调度器是Fair Scheduler。4.spark这一块,spark的关联方式。2.hadoop有哪些组件,作用的一系列。3.yarn的任务调度(我没印象)1.把一个表插另外一个表。(先做题--题放最后)5.大表join小表。
2024-03-06 23:55:58
394
原创 数仓开发-2023/2/29
14.有用过dws层直接对接bi嘛?mysql数据库有用吗?6.说下你之前公司来,你的技能层次在每个公司?你怎么评价你的技能?13.数据可视化界面怎么做的?bi你们讲解是谁负责。8.数仓的分层,分几层?按照数据域分层,问几层?7.你的之前业务主要是做什么?10.非本专业怎么进行后续学习的?2.介绍下之前的公司离线数仓项目。3.sql和hivesql区别?9.sql优化一般怎么优化的?11.系统函数怎么用的?12.数据迁移怎么做的?4.sql的执行顺序?
2024-03-05 20:49:36
419
原创 数仓开发-面试二
9.比如sql执行需要1分钟,现在效率低,要你优化到500ms(这个时候500行sql,你咋定位问题呢?怎么查看作业执行计划?(本身sql语句没有问题,可能数据存在问题,要不是表结构,要不逻辑问题)8.mysql离线查作业执行计划,如,你写个sql500,这个时候你怎么定位问题,查看问题。怎么执行作业执行计划。11.此岗位非偏hive(公司企业有20-30个系统)找ETL,需要适合多数据库,做报表开发。2.数据抽取中间件 flink,kettle。3.flink本身的优点和缺点。1.finebi使用。
2024-03-05 20:45:50
535
原创 数仓面试 2024/03/04面一
1.自我介绍,讲项目(主要讲怎么做的,解决哪些问题)2.HiveSQL的执行流程(这个我理解错意了,理解成hivesql真正执行的顺序(运行顺序了!!!))3.hive的数据源有哪些?4.linux命令(基础命令)5.sql一个逻辑过程(sql竹盖不能)6.搭建集群过程中遇到问题,关于组件信息7.分桶表和分区表的区别,分桶表的设计未来解决什么问题8.redis用过吗,在项目中用来干什么9.用的mysql哪个版本?数据库用什么?10.ETL开发流程和设计11.你遇到的问
2024-03-05 20:45:08
503
原创 面试题数仓开发2024/3/5
12.spark(spark算子,和sparksql),hbase,flink。3.底层原理 hadoop mr hive yarn,spark的底层原理。7.hive和clichhouse数据库sql语法的熟悉。10.有端到端的数据项目(从数据化采集到数据可视化)4.sql做题6道(主要用日期差,连续,拉链表)8.bi 前端的展现(报表,仪表盘,自助分析)11.实时数仓开发经验。
2024-03-05 19:51:03
461
原创 大数据运维面试1
1、OBS对象储存,hive不兼容怎么办;2、hive报错的话怎么去排除;4、组建主要熟悉哪一些(组建报错、搭建问题如:hiveserver、 hms各自作用、yarn日志查询))3、hive外部客户端访问不通(连接超时会是什么原因)---排查思路(客户有时传达的故障比较模糊);5、hadoop-HA的优势;6、熟悉哪些开发工具;
2024-03-05 19:27:16
695
原创 个人数仓开发面试题记录
第一个job会将map端数据随机输入reducer,每个reducer做部分聚合操作,相同的group by key会分布在不同的reducer中。第二个job再将前面预处理过的数据按key聚合并输出结果,这样就起到了均衡的效果。对于处理小数据量的任务,我们不需要通过集群模式进行处理(因为为该任务实际触发的job执行等开销可能比实际任务的执行时间还要长),Hive可以通过本地模式在单台机器上处理所有的任务。1)map端预聚合 (预聚合的配置参数为hive.map.aggr,默认值true)
2024-03-04 13:05:59
985
原创 SQL的书写顺序(必会笔记)
随着Mysql版本的更新换代,其优化器也在不断的升级,优化器会分析不同执行顺序产生的性能消耗不同而动态调整执行顺序。外连接的结果集: 主表取所有,从表取匹配. 主表与从表未匹配的数据通过null来补全.外连接确定主从表: 左外连左主右从, 右外连右主左从!
2024-03-04 12:31:51
667
转载 Hive SQL调优技巧
数据分区是一种将数据按照某个字段进行分组存储的技术,可以有效减少查询时的数据扫描量。通过分区字段进行数据过滤,可以只对目标分区进行查询,加快查询速度。优化案例优化前:1.优化后:1.反面案例代码写死日期,一次性不合理扫描2年+日志数据。map数超20万,而且会越来越大,直到跑不出来。1.3.5 使用索引在Hive SQL中,可以通过创建索引来加速查询操作。通过在关键字段上创建索引,可以减少数据扫描和过滤的时间,提高查询性能。
2024-03-04 12:22:24
269
原创 SQL语法顺序与执行顺序
2.执行顺序1.FORM:选择from后面跟的表,产生虚拟表1。2.ON:ON是JOIN的连接条件,符合连接条件的行会被记录在虚拟表2中。3.JOIN:如果指定了LEFT JOIN,那么保留表中未匹配的行就会作为外部行添加到虚拟表2中,产生虚拟表3。如果有多个JOIN链接,会重复执行步骤1~3,直到处理完所有表。4.WHERE:对虚拟表3进行WHERE条件过滤,符合条件的记录会被插入到虚拟表4中。5.GROUP BY:根据GROUP BY子句中的列,对虚拟表2中的记录进行分组操作,产生虚拟表5。6.HA
2024-03-04 11:55:42
534
原创 离线数仓实时数仓的存储
1.离线数仓选星型模型,实时数仓选雪花模型。3.明确数据域--小组内分工合作。2.实时数仓没有历史数据。4.实时数仓框架选型。
2024-03-02 00:38:59
345
原创 HA集群的启动命令(离线-实时数仓)
脚本:zk.sh start三台集群命令:bin/zkServer.sh start查看状态:bin/zkServer.sh status。
2024-02-29 00:26:29
1429
原创 Hive的Rank排名(rank函数,dense_rank函数,row_numer函数)
首先三者都是产生一个自增序列,不同的是。dense_rank() 排序的字段值相同时序列号会重复且下一个序列号继续序号自增,如:1、2、2、3、4(出现两个2,继续按照3编号)rank() 排序的字段值相同时序列号会重复且下一个序列号跳过重复位,如:1、2、2、4、5(出现两个2,跳过序号3,继续编号4)row_number() 排序的字段值相同时序列号不会重复,如:1、2、(2)3、4、5(出现两个2,第二个2继续编号3)
2024-02-27 22:23:54
1507
原创 在Web UI上提交Flink作业
1)任务打包完成后,我们打开Flink的WEB UI页面,在右侧导航栏点击“Submit New Job”,然后点击按钮“+ Add New”,选择要上传运行的JAR包。,任务运行所需的配置参数和保存点路径等,如下图所示,配置完成后,即可点击按钮“Submit”,将任务提交到集群运行。(3)任务提交成功之后,可点击左侧导航栏的“Running Jobs”查看程序运行列表情况。(2)点击该JAR包,出现任务配置页面,进行相应配置。JAR包上传完成,如下图所示。程序入口主类的全类名。
2024-02-27 10:47:31
1507
原创 idea设置
① 允许同时启动多个idea运行环境(注:port不能写死,不然会报异常)一般公司网络是局域网络,需要配置proxy。设置自己习惯的快捷键模式。自动添加和移除jar包。④ jre运行环境配置。
2024-02-26 21:48:09
392
原创 Flink代码单词统计 ---批处理
解决办法:log4j没有配置日志记录的位置,需要配置log4j.properties,在src目录main目录resources文件夹下下新建log4j.properties。在项目的pom文件中,添加Flink的依赖,包括flink-java、flink-streaming-java,以及flink-clients(客户端,也可以省略)。环境准备:在src/main/java目录下,新建一个包,命名为com.atguigu.wc。需求:统计一段文字中,每个单词出现的频次。⑤.就是对应单词的频次。
2024-02-25 23:20:57
859
原创 git 获取仓库代码与提交代码
打开安装程序后,一直点击下一步,直到以下位置:此处代表使用VIM作为Git默认的编辑器。继续下一步,直到:这里选择第一项,即仅仅在Bash中使用Git。如果有Linux的学习经历,使用Bash是最好的选择。之后一直点击下一步,直到结束。
2024-02-25 15:34:37
990
原创 Clickhouse的安装
确定防火墙处于关闭状态ulimit -a2.(1)在hadoop102的文件的末尾加入以下内容sudo vim/etc/sec2)在hadoop102的roc.conf文件的末尾加入以下内容sudo vim.conf3)执行同步操作atguigusudo2.安装依赖sudoyuminstall-ylibtoolsudoyuminstall-y*unixODBC*在hadoop103hadoop104。
2024-02-24 10:33:32
1155
原创 Mysql卸载
此电脑 --> 右键 --> 管理 --> 服务 --> MySQL57(版本不一样名字也不一样)-->右键关闭。控制面板 --> 卸载程序 --> 双击MySQL卸载即可。3.如果数据和配置文件不重要也可以全部删除(在安装的目录中删除)执行命令 : sc delete 服务名。5.清理注册表(详见百度-不同版本,不同清理)4.以管理员身份运行命令提示符。1.关闭MySQL服务。
2024-02-20 18:56:15
657
原创 SQL语句分为以下三种类型
DDL用于定义数据库的结构,比如创建、修改或删除数据库对象CREATE TABLE:创建数据库表ALTER TABLE:更改表结构、添加、删除、修改列长度DROP TABLE:删除表CREATE INDEX:在表上建立索引DROP INDEX:删除索引。
2024-02-20 18:42:18
460
原创 truncate、drop、delete比较
delete删除表中的元组并且不会重置表的自增值;delete操作不会减少表或索引所占用的空间;,所以不能像drop一样用于删除表的结构之后再重新建表。drop会删除表的结构及其所依赖的约束、索引等。drop:删除表的数据和结构之后重新建表。delete多于用删除部分数据。
2024-02-20 16:50:20
374
原创 Hive中几种常见的表
默认创建的表都是管理表/内部表,表数据默认存储在warehouse目录中,在加载数据的过程中,实际数据会被移动到warehouse目录中,当删除表时,表的数据和元数据将会被同时删除,管理表不适合和其他工具共享数据。使用场景:可以通过分区表,将每天搜集的数据进行区分,查询统计的时候通过指定分区,提高查询效率。每一个分区对应一个目录。Hive的表类型主要有:内部表(受控表/管理表)、外部表、临时表、分区表、分桶表。注意:使用as语句无法创建外部表,但是可以使用like进行创建表结构,但是没有数据。
2024-02-20 11:51:15
798
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人