cipay666-优快云博客

原创大数据面试要点3

项目经验：Hadoop 四个插哨hdfs参数调优：NameNode有一个工作线程池，用来处理datanode的心跳yarn优化（1）单个任务的最大物理内存8G（2）yarn上可使用的内存总量：8GHDFS空盘闲置率在70%之下Flume优化：Flume的内存配置为4G(flume-env.sh)FileChannel优化：配置多路径，增大Flume的吞吐量checkpointDir和backupCheckpointDir也尽量配置在不同硬盘对应的目录中保证checkpoint坏掉后

2020-10-20 16:29:28 220

原创大数据面试要点2

Hive内部表：删除表会删除原始数据外部表：删除表不会删除原始数据排序：sort by ：分区内排序order by：全局排序Distrbute by ：分区内结合sortby使用Cluster by：当Distrbute by和sort by字段相同时使用，不能指定排序规则窗口函数：rank（）dense_rankrow_number:over():自定义UDF和UDTF）用UDF函数解析公共字段；用UDTF函数解析事件字段。自定义UDF：继承UDF，重写evaluate方法

2020-10-20 16:27:20 168

原创大数据面试要点1

yarn调度器：1.FIFO调度器：先进先出，并行度为12.容量调度器：先进先出：并行度为队列的个数3.公平调度器：多队列；每个队列内部按照缺额大小分配资源启动任务，同一时间队列中有多个任务执行。队列的并行度大于等于队列的个数。Lzo压缩：hadoop默认不支持Lao压缩，需要添加Jar包并在cores-site.xml中添加相关压缩配置Hadoop参数调优1 在hdfs中配置夺目录2.namenode有一个工作线程池用来处理并发的心跳和元数据操作dfs.namenode.handler

2020-10-20 16:26:25 161

原创 Spark面试相关

SparkSpark的集中部署方式：local：运行在一台机器上Standlone：构建一个master+Slaves的资源调度集群Spark自身的一个调度系统Yarn：Spark客户端直接连接Yarn。不需要额外构建Spark集群有yarn-cluster和yarn-client两种模式Mesos：较少Spark任务使用Shell脚本提交Spark提交作业参数：executor-cores：内核数“2-5个”executor-memory：默认1Gdriver-cores:默认为1

2020-10-20 16:23:44 143

原创业务数仓总结

讲课，备课，开发业务数据仓库的总结：一表实体订单表：用户表：商品分类：交易流水：二.表分类实体表维度表事务性事实表周期性事实表三.同步策略全量新增新增和变化 create_time 和operate_time ===cannal范式：1范式：属性不可切割2范式：不能存在部分函数依赖3范式：不能存在传递依赖四。建模方式星型模型：外围只有一层维度雪花：外围有多层维度五.sqoop 导入导出问题hive底层存储null 为\N导出数据时：–input-n

2020-10-20 16:21:45 284

原创即席查询之Druid

Druid ：列式分布式实时分析的数据存储系统，处理PB级数据、毫秒级查询、数据实时处理，比传统的OLAP系统有了明显的性能改进阿里巴巴开源的项目官网：http://druid.io阿里还有一个druid数据库连接池的框架，解决的是不同的问题特点：1.）列式存储结构查询速度很快2.）可扩展的分布式系统，每秒几百万条数据3.）大规模的并行处理4.）实时或批量处理5.）自愈、自平衡、易操作：集群扩展或缩小，只需要添加或者删除服务器集群将会在后台自动重新平衡，无需任何停机时间6.）

2020-10-20 16:20:11 349

原创即席查询之Presto

Presto ：分布式sql查询引擎 GB–PB处理秒级查询的场景注意：不是一个标准的数据库，不是mysql的替代品，也不能处理在线事务（OLTP）属于OLAP分析引擎：1）客户端提交查询，从Presto命令行CLI提交到Coordinator2）Coordinator解析查询计划，把任务分发给Worker3) Worker负责执行任务和处理数据4）Catolog表示数据源。一个Catolog包含Schema和Connector5）Connector相当于jdbc连接池6）Schem

2020-10-20 16:18:52 483

原创 Hive性能调优

一、存储优化，选用ORCtext：行存储，默认不压缩，序列化、反序列化开销大sequence：行存储，二进制，压缩率底RCfile：行分块，列式存储，解压效率差，读取稍慢Parquet：列式存储，压缩比率高，但比ORC差，存取速度快ORC：行分块，列式存储，压缩快，存取快，压缩率最高，RCfile升级版二、表设计优化1、创建分区表2、创建桶表3、拆分不同的表存储三、sql参数优化1、作业有多个可并行的job时，设置任务并行及并行个数：// 开启任务并行执行set hive.exec

2020-10-20 16:16:44 278

原创 Shuffle机制

Shuffle机制1）Map方法之后Reduce方法之前这段处理过程叫Shuffle2）Map方法之后，数据首先进入到分区方法，把数据标记好分区，然后把数据发送到环形缓冲区；环形缓冲区默认大小100m，环形缓冲区达到80%时，进行溢写；溢写前对数据进行排序，排序按照对key的索引进行字典顺序排序，排序的手段快排；溢写产生大量溢写文件，需要对溢写文件进行归并排序；对溢写的文件也可以进行Combiner操作，前提是汇总操作，求平均值不行。最后将文件按照分区存储到磁盘，等待Reduce端拉取。3）每个Red

2020-10-20 16:15:36 229

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

cipay666的博客

原创大数据面试要点3

原创大数据面试要点2

原创大数据面试要点1

原创 Spark面试相关

原创业务数仓总结

原创即席查询之Druid

原创即席查询之Presto

原创 Hive性能调优

原创 Shuffle机制

原创 HDFS读写数据流程

原创 Hadoop常用端口号和配置文件

原创面试Linux常用命令

ElasticSearch Java开发Demo.zip

mysql进阶学习

mysql学习基础测试

空空如也