大数据开发工具漫谈

本文讨论了如何通过使用工具来提高大数据分析的工作效率。包括MapReduce、Spark、TensorFlow等知名工具,以及多维分析工具和标签提取工具。通过工具化重复性任务,减少体力劳动,提升开发效率。

    关于工具,大家理解是一种可以用提高工作效率的,在大数据平台,工具也是很重要的,很多时候我们分析大数据涉及很多重复性的体力劳动,假如我们可以将一些操作工具化,可以大大提高开发的效率。 比较有名的工具,大家能想到的是 Mapreduce,帮我们实现程序并行化。Sql,帮我们很快实现一个Mapreduce。spark,帮助我们实现内存版本的mapreduce,以及其他数据处理。mpi,帮我们实现某些计算的并行化,tensorflow帮助我们快速实现模型训练并行化。机器学习并行化。多维分析工具,帮我们很快实现各种不同维度的报表展示。还有一种工具,数据挖掘的同学会更感兴趣,那就是标签提取工具。凡是能做成工具的,实现的都是一类数据分析工作,标签挖掘正常情况下,大家认为不同的数据挖掘方式不同,挖掘规则不同,很难用一个工具去帮忙,这就需要去提炼标签挖掘中的共性。将一些提炼方法规则化,将个性化的东西变为可配置的。这样可以降低挖掘人员的工作量,提高工作效率。

转载于:https://www.cnblogs.com/qianxun/p/5564604.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值