
大数据
Mr Fmy
这个作者很懒,什么都没留下…
展开
-
hive sql性能优化
1.join(1)建中间表(大表重复使用,逻辑重复使用,关联多逻辑复杂)(2)建子查询(减少数据量,减少大表关联)2.on(1)null值处理(2)关联字段唯一(3)数据倾斜过滤倾斜key(关于驱动表的取,用join key分布最均匀的表作为驱动表做好列裁剪和filter操作,以达到两表做join的时候,数据量相对变小的效果)BroadCastJoin(即map join)(使用map join让小的维度表(1000条以下的记录条数) 先进内存。在map端完成reduce)分层汇总拆原创 2021-10-15 21:38:52 · 379 阅读 · 0 评论 -
hbase问题总结(校招)
1.hbase的底层1)StoreFile保存实际数据的物理文件,StoreFile以HFile的形式存储在HDFS上。每个Store会有一个或多个StoreFile(HFile),数据在每个StoreFile都是有序的。2)MemStore写缓存,由于HFile中的数据要求是有序的,所以数据是先存储在MemStore中,排好序后,等到达刷写时机时才会刷写到HFile,每次刷写都会形成一个新的HFile。3)WAL由于数据要经MemStore排序后才会刷写到HFile,但把数据保存在内存中会有.原创 2021-03-08 18:53:48 · 350 阅读 · 1 评论 -
hadoop、hive优化、hive数据倾斜面试必备
hadoop优化分mr,yarn1.yarn小文件处理:har归档,CombineTextInputFormat:切片角度,把很多小文件当成一个切片,jvm归档2mr1.Map阶段(1)增大环形缓冲区的大小。由100m扩大到200m(2)增大环形缓冲区的溢写比例。有80%扩大到90%(3)减少对溢写文件的merge次数.(10个文件,一次20个merge)(4)不影响实际业务的前提下,采用Combiner提前合并,减少IO2.3)Reduce阶段(1)合理设置Map和Reduce原创 2021-02-25 16:16:20 · 188 阅读 · 0 评论 -
org.apache.hadoop.hive.ql.exec.spark.SparkTask. Failed to create Spark client for Spark session 0354
1、Spark没有正常启动2、Spark和Hive版本不匹配3、资源不足,导致Hive连接Spark客户端超过设定时长hadoop的resourcemanage起不来?为什么只要两个节点?我都hive复杂查询解决了。yarn原来没起来,脚本没有修改,应该在hadoop103启动resourcemanager,start-yarn.sh我的问题好像不是最上面的三个问题。...原创 2021-02-02 20:33:12 · 1275 阅读 · 0 评论 -
hadoop性能优化(调优)
用户角度:hadoop参数调优:core-site.xml,hdfs-site.xml,mapred-site.xml三个配置文件,根据实际应用场景对参数进行配置,比如io.seqfile.compress.blocksize(块压缩时块的最小块大小),dfs.block.size(每个文件块的大小,默认是64M,对于大型文件可以设置为128M)。常用参数设置:(1).reduce个数设置:A.如果reduce个数设置太小,单个reducetask执行速度很慢,出错重新调试的时间比较多B.如果r原创 2021-01-29 13:48:04 · 1539 阅读 · 1 评论 -
离线数仓全面复习(1)
1.集群规模:12台物理集,128G内存,8T机械硬盘,2T固态硬盘,20核40线程,戴尔4万多1台(重要,吹牛)2.原创 2021-01-21 15:56:13 · 411 阅读 · 0 评论 -
canal采集数据到mysql
为什么gmall没有消费到数据难道canal配置有问题?在这里插入图片描述这里的serverMode没有改为kafka在这里插入图片描述drop table if exists ods_order_info;create external table ods_order_info(id string comment ‘订单号’,final_total_amount decimal(16,2) comment ‘订单金额’,order_status string comment ‘订单状态’,user_id string comment ‘用户id’,out_trade_no string comment原创 2020-12-29 20:37:05 · 1626 阅读 · 0 评论 -
scala农贸市场需求
import scala.io.Sourceobject $16_Home { /* 1、求出哪些省份没有农产品市场 * 2、获取菜的种类最多的三个省份 * 3、获取每个省份菜的种类最多的三个农贸市场 */ def main(args: Array[String]): Unit = { val allprovinces = Source.fromFile("data/allprovince.txt","utf-8").getLines().toList原创 2020-11-23 20:46:53 · 311 阅读 · 0 评论 -
Kafka命令操作
2.2 Kafka命令操作2.2.1 查看当前服务器中的所有topickafka-topics.sh --bootstrap-server hadoop102:9092 --list选项说明:–list :查看kafka所有的topic–bootstrap-server : 连接kafka集群–hadoop102:9092:hadoop102是指连接kafka任意一台机器,9092:kafka内部通信的端口2.2.2 创建topickafka-topics.sh --bootst原创 2020-11-03 09:58:20 · 383 阅读 · 0 评论