MLSQL 1.2.0 新增的一些功能(1)

本文探讨MLSQL作为数据中台的潜力,强调excel支持和流式计算图形化的重要性,提出上传功能与excel集成方案,使运营人员能高效处理数据,实现从数据获取到邮件发送的一站式操作。

excel的支持

我一直期待MLSQL能成为一个真正的数据中台,但是推广一段时间,发现产品和运营体系的同学好像还没有接进来。当然这个有多方面原因,比如用户界面不够易用,对非编程人员不够友好等等。其实最大问题在于,他们发现这个东西没有他们使用的场景,因为他们真正处理的最多的数据格式其实是excel,而你的平台不支持。其次是,一般excel我都是各种渠道搞到的,不会默认在集群上,我需要上传才能使用。但是直接上传到HDFS是不被允许的(安全问题),所以需要一个新的设计来解决这个问题。

有了上传功能(支持目录上传),也有了excel支持,那么比如运营同学弄到了一批用户名,这个时候他想要获取这些用户的邮箱,他可能关联一个信息有限的hive表,mysql表等等,然后写一条join语句就能搞定,并且能够在界面完成邮件发送等等,这样他的工作就都可以在数据中台完成了。

假设我有个目录test2,然后里面有三个文件,一个excel文件:


1063603-1842a50a8de64cb1.png
image.png

我可以把整个目录上传上去:

1063603-9a808c7f48e4f138.png
image.png

现在显示成功:

1063603-99cbf670ac2f1dd9.png
image.png

这些文件其实是被上传到了web服务器的一个临时目录里,如果希望在MLSQL中使用,你需要再下载下来,用户只能下载自己上传的文件。因为这里我没有配置用户主目录,所以用户可以自己指定目录:

1063603-d6efe32ce6dd1e18.png
image.png

我们看到数据被上传到了hdfs的/tmp/jack目录里。接着我就可以加载excel数据了,当然,你还可以报结果保存成excel文件,之后把Mail ET把结果通过邮件等发送出去,从而通过一个简单的脚本完成一个完整的流程。

1063603-5d21d8f645dae9d6.png
image.png

流式计算更好的图形化支持

流和批都被统一成了相同的任务,可以通过 mlsql.jobs查看:

1063603-2c8f87b42b03515b.png
image.png

你可以看到流的进度详情:

1063603-cf860cef9ad74fc5.png
image.png

当然我这都变成直线了,因为没有数据持续进来。

点击RawData标签,可以看到每个周期详细信息:

1063603-a6a993c6850290b4.png
image.png

资源占用更好的图形展示

当你运行一个复杂的任务时,你可以实时看到这个任务的资源消耗以及进度。

1063603-086e68544b74df9a.png
image.png
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值