
大数据
文章平均质量分 91
张俊林博客
中科院软件所博士学位,研究领域:搜索引擎,自然语言处理,社交挖掘,推荐系统与机器学习。现在从事相关的开发与研究。
展开
-
大数据图数据库之数据分片
节选自《大数据日知录:架构与算法》十四章,书籍目录在此 对于海量待挖掘数据,在分布式计算环境下,首先面临的问题就是如何将数据比较均匀地分配到不同的服务器上。对于非图数据来说,这个问题解决起来往往比较直观,因为记录之间独立无关联,所以对数据切分算法没有特别约束,只要机器负载尽可能均衡即可。由于图数据记录之间的强耦合性,如果数据分片不合理,不仅会造成机器之间负载不均衡,还会大量增加机器之原创 2014-09-20 08:16:53 · 9740 阅读 · 1 评论 -
大数据图数据库之MapReduce用于图计算
/* 版权声明:可以任意转载,转载时请务必标明文章原始出处和作者信息 .*/ CopyMiddle: 张俊林 节选自《大数据日知录:架构与算法》十四章,书籍目录在此1.使用Mapreduce进行图计算 使用MapReduce框架来针对大规模图数据进行计算的研究工作相对较少,这主原创 2014-09-23 19:00:39 · 12958 阅读 · 0 评论 -
大数据图数据库之TAO数据库
节选自《大数据日知录:架构与算法》十四章14.1.2 TAO图数据库 Facebook是目前世界上最著名的社交网站,如果从数据抽象的角度来看,Facebook的社交图不仅包括好友之间的关系,还包括人与实体以及实体与实体之间的关系,每个用户、每个页面、每张图片、每个应用、每个地点以及每个评论都可以作为独立的实体,用户喜欢某个页面则建立了用户和页面之间的关系,用原创 2014-09-17 20:08:32 · 7063 阅读 · 1 评论 -
大数据图数据库之离线挖掘计算模型
/* 版权声明:可以任意转载,转载时请务必标明文章原始出处和作者信息 .*/ author: 张俊林 节选自《大数据日知录:架构与算法》十四章,书籍目录在此 对于离线挖掘类图计算而言,目前已经涌现出众多各方面表现优秀而各具特点的实际系统,典型的比如Pregel、Giraph、Hama、PowerG原创 2014-10-08 19:51:30 · 8242 阅读 · 1 评论 -
图数据库之Pregel
节选自《大数据日知录:架构与算法》十四章,书籍目录在此, Pregel是Google提出的大规模分布式图计算平台,专门用来解决网页链接分析、社交数据挖掘等实际应用中涉及的大规模分布式图计算问题。原创 2014-10-25 09:04:06 · 17751 阅读 · 1 评论 -
博主新书:《大数据日知录:架构与算法》目录
4目录编辑第0 章 当谈论大数据时我们在谈什么................ 10.1 大数据是什么.......................... 20.2 大数据之翼:技术范型转换......................................... 40.3 大数据商业炼金术................................ 6原创 2014-09-16 09:28:29 · 10957 阅读 · 4 评论 -
Paxos协议基本原理
本文介绍了分布式系统维护数据一致性中非常重要且基础的技术Paxos协议的基本原理。原创 2016-05-10 19:13:51 · 25763 阅读 · 1 评论