
BigData
文章平均质量分 70
H_Shun
这个作者很懒,什么都没留下…
展开
-
千万级数据通过sqoop从hive orc分区表导出到mysql的提速经验
背景数仓算好的数据需要导出到MySQL,但现有的操作流程导出千万级的数据耗时近2小时,2小时的导出速度无法忍耐,且失败成本较高,故急需优化提速。Hive表为orc格式,按月分区,数据每月通过spark任务执行,并且insert 命令后会带上distribute by语句,保证每个月分区内只有一个文件MySQL环境为开发环境,硬件配置极低思路正常我们执行sqoop命令导出数据时,都有固有的模板,类似:sqoop export \ --connect "${conn_info}" \ -原创 2021-02-24 16:21:10 · 1656 阅读 · 0 评论 -
MapReduce 求两个人的共同好友算法
希望自己早日学会总结、学会善于总结。需求 以下是qq的好友列表数据,冒号前是一个用户,冒号后是该用户的所有好友(数据中的好友关系是单向的) A:B,C,D,F,E,O B:A,C,E,K C:F,A,D,I D:A,E,F,L E:B,C,D,M,L F:A,B,C,D,E,O,M ...原创 2017-12-02 19:44:16 · 4562 阅读 · 0 评论 -
Spark性能优化指南——基础篇
前言在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单,主要就是为了让大数据计算作业的执行速度更快、性转载 2018-04-08 13:13:15 · 411 阅读 · 0 评论 -
Spark性能优化指南——高级篇
前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性转载 2018-04-08 13:34:04 · 452 阅读 · 0 评论 -
Spark性能调优-总结分享
1、Spark调优背景目前Zeppelin已经上线一段时间,Spark作为底层SQL执行引擎,需要进行整体性能调优,来提高SQL查询效率。本文主要给出调优的结论,因为涉及参数很多,故没有很细粒度调优,但整体调优方向是可以得出的。环境:服务器600+,spark 2.0.2,Hadoop 2.6.02、调优结果调优随机选取线上9条SQL,表横轴是调优测试项目,测试在集群空闲情况下进行,后一个的测试都是转载 2018-03-27 14:39:10 · 722 阅读 · 0 评论 -
Spark中cache和persist的区别
最近一直在用 spark-hive 匹配表,由于数据量巨大(其中一步需要几十亿的数据和几亿的数据join),所以在查询中想将表缓存起来。后搜索了一些资料,看到spark中有cache和persisit两个API进行缓存,现整理一下两个区别。 原文链接:https://blog.youkuaiyun.com/houmou/article/details/52491419 cache和persist都是用于将一转载 2018-04-02 15:35:00 · 617 阅读 · 0 评论 -
CentOS-6.x下安装MySQL教程
用了几天 CentOS 系统,由于安装 MySQL 过程相对复杂,特写下此教程,供刚入门的开发者阅读。本教程使用到的MySQL 安装包(32位):链接: https://pan.baidu.com/s/1mih4ZdI 密码: m7tz64位的安装方法基本相同,附64位MySQL安装包:链接: https://pan.baidu.com/s/1miMgQHM 密码: cwmd教...原创 2017-11-21 00:08:22 · 729 阅读 · 0 评论