笔记
a大数据yyds
大数据初学者
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
join
而加快join的执行速度。需要注意,使用mapjoin时: left outer join的左表必须是大表; right outer join的右表必须是大表; inner join左表或右表均可以作为大表; full outer join不能使用mapjoin; mapjoin支持小表为子查询; 使用mapjoin时需要引用小表或是子查询时,需要引用别名; 在mapjoin中,可以使用不等值连接或者使用or连接多个条件; 目前ODPS在mapjoin中最多支持指定6张小表,否则报语法错误; 如果使用map原创 2021-08-04 16:46:44 · 392 阅读 · 0 评论 -
Spark得整理
Spark是使用Scala语言编写、基于内存运算的大数据计算框架。 以Spark core为核心,提供了Spark SQL、Spark Streaming、MLlib几大功能组件 中文文档:https://spark.apachecn.org/#/ github地址:https://github.com/apache/spark Spark Core Spark提供了多种资源调度框架,基于内存计算...原创 2020-04-14 22:12:17 · 950 阅读 · 0 评论
分享