
hadoop
文章平均质量分 93
hadoop
架构师老狼
资深架构师,专注于区块链、微服务、大数据研究!坚定信念,乐观心态,永不止步!
展开
-
hive3.x on spark3.0生产调优实践
1 数据倾斜绝大部分任务都很快完成,只有一个或者少数几个任务执行的很慢甚至最终执行失败,这样的现象为数据倾斜现象。将数据倾斜分为单表携带了 GroupBy 字段的查询和两表(或者多表)Join 的查询。1.1 单表数据倾斜优化1.1.1 Map 端进行聚合 - GroupBy 操作同时聚合函数为 count 或者 sumset hive.map.aggr = true;set hive.groupby.mapaggr.checkinterval = 100000;set hive.grou原创 2021-09-16 20:18:39 · 1229 阅读 · 2 评论 -
Hadoop3.x生产环境调优之高可用
1 hadoop HA高可用实现高可用最关键的策略是消除单点故障。HA严格来说应该分成各个组件的HA机制:HDFS的HA和YARN的HA。前提:配置zookeeper集群1.1 HDFS HA 高可用工作机制元数据管理方式需要改变:内存中各自保存一份元数据;Edits日志只有Active状态的NameNode节点可以做写操作;两个NameNode都可以读取Edits;共享的Edits放在一个共享存储中管理(journal和NFS两个主流实现);需要一个状态管理功能模块:实现了一个zkfai原创 2021-09-13 16:26:10 · 391 阅读 · 0 评论 -
开源精选 - Spark个性化推荐算法
理论篇1 推荐系统的意义 - 解决信息过载搜索引擎时代分类导航:雅虎搜索:谷歌、百度个性化时代(提高用户粘度、增加营收)系统自动推荐相关的东西:今日头条、豆瓣、电商2 推荐系统的分类基于人口统计学的推荐基于内容的推荐基于协同过滤的推荐3 基于人口统计学的推荐基于人口统计学的推荐机制(Demographic-based Recommendation)是...原创 2020-02-18 18:13:14 · 3072 阅读 · 0 评论 -
医疗数据仓库ETL (python版本)
2.6.1 方案的选择总结:1)Spark定位于内存计算框架:分布式计算RDD、实时计算spark stream、结构化查询saprkSQL、数据挖掘spark.ML2)类比hadoop生态:分布式存储hdfs、数据仓库hive(meta、数据存储基于hdfs)、yarn分布式资源调度、nosql数据库hbase3)综合优化方案:sparkSQL做多数据源IO接入,RDD做数据清理、转换...原创 2019-03-07 13:33:20 · 3207 阅读 · 0 评论 -
医疗实时流日志分析
2.6 spark实战案例:实时日志分析2.6.1 交互流程图2.6.2 客户端监听器(java)@SuppressWarnings("static-access") private void handleSocket() { lock.lock(); Writer writer = null; RandomAccessFile原创 2019-02-13 14:13:24 · 1178 阅读 · 0 评论 -
spark sql常用action
2.4 sparkContext IO:读2.4.1 textFile # Load a text file and convert each line to a Row. lines = sc.textFile("examples/src/main/resources/people.txt")2.4.2 hadoopFile2.4.3 newAPIHadoopFile...原创 2019-02-13 13:59:16 · 352 阅读 · 0 评论 -
spark RDD 函数API指南
2.2 RDD:计算 transform->action2.2.1 aggregatex = sc.parallelize([2,3,4], 2)[Task不能跨分片,task数为2]neutral_zero_value = (0,1) # sum: x+0 = x, product: 1*x = xseqOp = (lambda aggregated, el: (aggreg...原创 2019-02-13 13:52:57 · 439 阅读 · 0 评论 -
spark (python远程开发调试)
2.1 pycharm远程开发调试2.1.1 python版本一致#版本都保持3.6.6#root cd /usr/local/python3/bin/pip3 list备注:[python模块导入顺序是从sys.path中取,可以代码加入到sys.path。当前目录->PYTHONPATH->安装目录,所以设置了PYTHONPATH,这里模块安装自动引进来。]#检查...原创 2019-02-13 13:30:07 · 285 阅读 · 0 评论 -
hadoop spark之常用配置
1.2 安装配置1.2.1 安装jdk1.8#root vim /etc/profileexport JAVA_HOME=/data/software/jdk1.8.0_191export JRE_HOME=JAVAHOME/jreexportCLASSPATH=.:{JAVA_HOME}/jre export CLASSPATH=.:JAVAHOME/jreexportC...原创 2019-02-13 13:22:13 · 633 阅读 · 0 评论 -
hadoop spark之基础环境
1 基础环境1.1.1 关闭selinux#查看状态:/usr/sbin/sestatus#disabled vim /etc/selinux/config#重启 reboot1.1.2 关闭防火墙#查看防火墙规则 firewall-cmd --list-all#查询端口是否开放 firewall-cmd --query-port=8080/tcp#开放80端口...原创 2019-02-13 12:53:58 · 228 阅读 · 0 评论 -
电商交易数据分析(hive版)
05年项目使用spark+hadoop,最近公司分享给小伙伴们,就整理出文档供大家学习交流。整理hdfs+hive+spark stream+spark sql实战系列,有些数据是网上搜索下载的,同时整理时也参考其他博文以及《spark实战》原创 2017-09-30 13:16:22 · 2742 阅读 · 2 评论 -
hive常用配置
05年项目使用spark+hadoop,最近公司分享给小伙伴们,就整理出文档供大家学习交流。整理hdfs+hive+spark stream+spark sql实战系列,有些数据是网上搜索下载的,同时整理时也参考其他博文以及《spark实战》原创 2017-09-30 13:04:15 · 382 阅读 · 0 评论 -
spark hadoop 基础配置
05年项目使用spark+hadoop,最近公司分享给小伙伴们,就整理出文档供大家学习交流。整理hdfs+hive+spark stream+spark sql实战系列,有些数据是网上搜索下载的,同时整理时也参考其他博文以及《spark实战》原创 2017-09-30 11:51:21 · 1015 阅读 · 0 评论