自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 资源 (3)
  • 收藏
  • 关注

原创 大数据面试要点3

项目经验:Hadoop 四个插哨hdfs参数调优:NameNode有一个工作线程池,用来处理datanode的心跳yarn优化(1)单个任务的最大物理内存8G(2)yarn上可使用的内存总量:8GHDFS空盘闲置率在70%之下Flume优化:Flume的内存配置为4G(flume-env.sh)FileChannel优化:配置多路径,增大Flume的吞吐量checkpointDir和backupCheckpointDir也尽量配置在不同硬盘对应的目录中保证checkpoint坏掉后

2020-10-20 16:29:28 220

原创 大数据面试要点2

Hive内部表:删除表会删除原始数据外部表:删除表不会删除原始数据排序:sort by :分区内排序order by:全局排序Distrbute by :分区内结合sortby使用Cluster by:当Distrbute by和sort by字段相同时使用,不能指定排序规则窗口函数:rank()dense_rankrow_number:over():自定义UDF和UDTF)用UDF函数解析公共字段;用UDTF函数解析事件字段。自定义UDF:继承UDF,重写evaluate方法

2020-10-20 16:27:20 168

原创 大数据面试要点1

yarn调度器:1.FIFO调度器:先进先出,并行度为12.容量调度器:先进先出:并行度为队列的个数3.公平调度器:多队列;每个队列内部按照缺额大小分配资源启动任务,同一时间队列中有多个任务执行。队列的并行度大于等于队列的个数。Lzo压缩:hadoop默认不支持Lao压缩,需要添加Jar包并在cores-site.xml中添加相关压缩配置Hadoop参数调优1 在hdfs中配置夺目录2.namenode有一个工作线程池用来处理并发的心跳和元数据操作dfs.namenode.handler

2020-10-20 16:26:25 161

原创 Spark面试相关

SparkSpark的集中部署方式:local:运行在一台机器上Standlone:构建一个master+Slaves的资源调度集群Spark自身的一个调度系统Yarn:Spark客户端直接连接Yarn。不需要额外构建Spark集群有yarn-cluster和yarn-client两种模式Mesos:较少Spark任务使用Shell脚本提交Spark提交作业参数:executor-cores:内核数“2-5个”executor-memory:默认1Gdriver-cores:默认为1

2020-10-20 16:23:44 143

原创 业务数仓总结

讲课,备课,开发业务数据仓库的总结:一 表实体订单表:用户表:商品分类:交易流水:二.表分类实体表维度表事务性事实表周期性事实表三.同步策略全量新增新增和变化 create_time 和operate_time ===cannal范式:1范式:属性不可切割2范式:不能存在部分函数依赖3范式:不能存在传递依赖四。建模方式星型模型:外围只有一层维度雪花:外围有多层维度五.sqoop 导入导出问题hive底层存储null 为\N导出数据时:–input-n

2020-10-20 16:21:45 284

原创 即席查询之Druid

Druid :列式分布式实时分析的数据存储系统,处理PB级数据、毫秒级查询、数据实时处理,比传统的OLAP系统有了明显的性能改进阿里巴巴开源的项目 官网:http://druid.io阿里还有一个druid数据库连接池的框架,解决的是不同的问题特点:1.)列式存储结构 查询速度很快2.)可扩展的分布式系统,每秒几百万条数据3.)大规模的并行处理4.)实时或批量处理5.)自愈、自平衡、易操作:集群扩展或缩小,只需要添加或者删除服务器集群将会在后台自动重新平衡,无需任何停机时间6.)

2020-10-20 16:20:11 349

原创 即席查询之Presto

Presto :分布式sql查询引擎 GB–PB处理秒级查询的场景注意:不是一个标准 的数据库,不是mysql的替代品,也不能处理在线事务(OLTP)属于OLAP分析引擎:1)客户端提交查询,从Presto命令行CLI提交到Coordinator2)Coordinator解析查询计划,把任务分发给Worker3) Worker负责执行任务和处理数据4)Catolog表示数据源。一个Catolog包含Schema和Connector5)Connector相当于jdbc连接池6)Schem

2020-10-20 16:18:52 483

原创 Hive性能调优

一、存储优化,选用ORCtext:行存储,默认不压缩,序列化、反序列化开销大sequence:行存储,二进制,压缩率底RCfile:行分块,列式存储,解压效率差,读取稍慢Parquet:列式存储,压缩比率高,但比ORC差,存取速度快ORC:行分块,列式存储,压缩快,存取快,压缩率最高,RCfile升级版二、表设计优化1、创建分区表2、创建桶表3、拆分不同的表存储三、sql参数优化1、作业有多个可并行的job时,设置任务并行及并行个数:// 开启任务并行执行set hive.exec

2020-10-20 16:16:44 278

原创 Shuffle机制

Shuffle机制1)Map方法之后Reduce方法之前这段处理过程叫Shuffle2)Map方法之后,数据首先进入到分区方法,把数据标记好分区,然后把数据发送到环形缓冲区;环形缓冲区默认大小100m,环形缓冲区达到80%时,进行溢写;溢写前对数据进行排序,排序按照对key的索引进行字典顺序排序,排序的手段快排;溢写产生大量溢写文件,需要对溢写文件进行归并排序;对溢写的文件也可以进行Combiner操作,前提是汇总操作,求平均值不行。最后将文件按照分区存储到磁盘,等待Reduce端拉取。3)每个Red

2020-10-20 16:15:36 229

原创 HDFS读写数据流程

2020-10-19 11:26:28 86

原创 Hadoop常用端口号和配置文件

Hadoop常用端口号dfs.namenode.http-address:50070dfs.datanode.http-address:50075SecondaryNameNode辅助名称节点端口号:50090dfs.datanode.address:50010fs.defaultFS:8020 或者9000yarn.resourcemanager.webapp.address:8088历史服务器web访问端口:198884.2.2 Hadoop配置文件以及简单的Hadoop集

2020-10-19 11:22:07 622

原创 面试Linux常用命令

Linux常用命令序号 命令 命令解释1 top 查看内存2 df -h 查看磁盘存储情况3 iotop 查看磁盘IO读写(yum install iotop安装)4 iotop -o 直接查看比较高的磁盘读写程序5 netstat -tunlp | grep 端口号 查看端口占用情况6 uptime 查看报告系统运行时长及平均负载7 ps aux 查看进程Shell常用工具awk、sed、cut、sort...

2020-10-19 11:20:10 219

ElasticSearch Java开发Demo.zip

ElasticSearch Java:ransportClient将会在后面的版本中弃用,因此不推荐后续使用;而Jest由于是社区维护,所以更新有一定延迟,目前最新版对接ES6.3.1,近一个月只有四个issue,说明整体活跃度较低,因此也不推荐使用;Spring Data Elasticsearch主要是与Spring生态对接,可以在web系统中整合到Spring中使用。

2020-04-05

mysql进阶学习

mysql进阶帮助你更好的实现sql的提升,对资深sql水平有一个更高的标准

2018-10-15

mysql学习基础测试

mysql入门测试,帮助你更好的理解sql的语法,快速掌握sql入门技巧

2018-10-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除