前言:
由于是出于兴趣自学Spark的相关基础知识,工作中我身边也没有合适的场景必须需要使用Spark。比如数据量大到单机跑好几个小时还跑不完等等。
我对于Spark的运用也仅限于练习几个例子。所以我一直感受不到Spark的威力,也不清楚哪些场景适合Spark。
Spark的适用场景是什么? 这是我几个周以至于直到现在都在思考的问题,因为我工作中并用不上它……。(欢迎各位读者分享下自己经历过的Spark使用场景)
但是最近我在工作中遇到一个场景并且用Spark花了几分钟给解决了。 这让我有点高兴,因为我用Spark解决了一个具体的问题,这让我之前的学习有了价值。
并且解决问题的过程还算流畅: 1. 首先是短暂的判断, 判断哪种方法合适做这个事情。 2. 想到用Spark来解决,并写了几行Spark代码就解决了问题。
小量数据清洗场景
这种场景如下:
我有500条数据(小量),数据具有完好的格式,以Tab键分隔。格式为ColumnA ColumnB ColumnC ColumnD
.
我想要的数据是ColumnB,ColumnC,Field
,其中Field是一个固定的字符串。 即把ColumnB和ColumnC和Field以’,'连接起来。
针对这种场景你会怎么实现呢?
- 手动? 我相信如果有20条数据,手动作为一种解决办法也还好,但500条,还是要花很长时间的
- 利用文件编辑器的功能? 因为Field是固定的,但是ColumnC不是定长的,批量添加内容也不是很容易
- 写个程序? 写个程序(Jav