
混合处理框架spark
文章平均质量分 73
学习spark的一些知识储备
刘文钊1
做Oracle EBS开发,技术宅。
嗯,该做大数据了,突然成了新人。
展开
-
hive sql&spark 优化
在数据抽取中常用到从其他数据库抽取数据后数据灌入到hive数据库的情况。大体逻辑是,连接源数据库,抽取数据,缓存转换,数据插入到hive数据库(或者直接覆盖db文件)。中间源数据库的效率和代码质量、抽取数据的服务器资源、数据转换的效率、hive数据的插入sql效率等都是限制数据抽取效率的瓶颈,如何在保证系统稳定的情况下,效的优化各阶段的运行速度,从而整体提高数据抽取的效率,是一个比较大的课题。从三个方面做思考:源数据库优化,抽取过程优化,数据灌入优化。原创 2023-12-04 19:01:18 · 453 阅读 · 0 评论 -
Scala中的选项(Options )
在Java中使用null,偶尔需要处理它。如果未处理,则可能给出NullPointerException。当接受从函数返回的值时可以使用Option,该函数可以在周期时间返回null,否则返回一些值。这两个值之一是“ none”,其他值可以是程序中有效的任何对象。是一个包含一个值的容器,该值可以是两个不同值之一。不会发生此异常,这就是其用法更有效的原因。在Java编程中Option与。当函数失败时,为空类的实例。一个类的实例,当函数成功时。原创 2023-11-10 08:39:51 · 725 阅读 · 0 评论 -
spark读取和保存本机文件
还可以设置其他选项来自定义导出的行为,如分区、压缩格式等。- `text("/path/to/output.txt")`指定导出文件的路径和名称。– `option(“header”, “true”)`设置CSV文件的第一行为列名。– `format(“parquet”)`设置导出文件的格式为Parquet。- `format("json")`设置导出文件的格式为JSON。- ut.json")`指定导出文件的路径和名称。– ut.csv”)`指定导出文件的路径和名称。– `的格式为CSV。原创 2023-11-08 16:04:32 · 1849 阅读 · 0 评论 -
使用spark进行递归的可行方案
与一些需求有冲突,比如原需求为递归计算,按照需求扣减现有量,是无法实现的。在ERP中使用pl/sql甚至sql是可以进行炸BOM的,但是怎么使用spark展开,并且效率要不Oracle更高效的展开,是个问题。在实际工作中会遇到,最近有需求将产品炸开bom到底层,但是ERP中bom数据在一张表中递归存储的,不循环展开,是无法知道最底层原材料是什么。优缺点:本质上,并不是递归计算,而是过度有限循环的计算。缺点:一个sql炸到底层,无法添加在炸开过程中的逻辑管控。优点:可行,并可以在每一层进行管快。原创 2023-11-10 08:29:16 · 2882 阅读 · 1 评论