节选自《大数据日知录:架构与算法》十四章,书籍目录在此
对于海量待挖掘数据,在分布式计算环境下,首先面临的问题就是如何将数据比较均匀地分配到不同的服务器上。对于非图数据来说,这个问题解决起来往往比较直观,因为记录之间独立无关联,所以对数据切分算法没有特别约束,只要机器负载尽可能均衡即可。由于图数据记录之间的强耦合性,如果数据分片不合理,不仅会造成机器之间负载不均衡,还会大量增加机器之间的网络通信(见图14-5),再考虑到图挖掘算法往往具有多轮迭代运行的特性,这样会明显放大数据切片不合理的影响,严重拖慢系统整体的运行效率,所以合理切分图数据对于离线挖掘类型图应用的运行效率来说非常重要,但是这也是至今尚未得到很好解决的一个潜在问题。
&nb
本文探讨了大数据图数据库在分布式环境下的数据分片问题,重点关注切边法和切点法两种策略。切边法虽然简单,但会导致较高的存储和通信开销,而切点法能有效减少边的通信,但需解决数据一致性问题。在实际应用中,简单的随机均分法常被采用,尽管效率较低,但实现快速。选择切分算法需综合考虑负载均衡、通信量和实施成本。
最低0.47元/天 解锁文章
792

被折叠的 条评论
为什么被折叠?



