
数据库
文章平均质量分 83
kjcsdnblog
新人求罩
展开
-
Hadoop-Invert-Index
Hadoop-Invert-Index倒排索引是文档检索系统中最常见的数据结构,被广泛用于全文索引引擎。它主要是用来存储某个单词(或词组)在一个文档或一组文档那该的存储位置的映射,即提供了一种根据内容来查找文档的方式。由于不是根据文档来确定文档所包含的内容,而是进行了相反的操作(即根据关键字来查找文档),故称为倒排索引。源码import java.io.IOException; import j原创 2017-09-01 23:41:45 · 331 阅读 · 0 评论 -
Hadoop Left Join
数据库的Left Join操作就不解释了,参考图解SQL的各种连接操作 下面来说说如何用hadoop的MapReducer实现数据库的LeftJoin。其实这是个非常简单的过程,举例说明:假设有两个表employee和salary Employee companyId Employee jd, david jd, mike tb, mik原创 2017-09-02 00:39:47 · 529 阅读 · 0 评论 -
Hadoop Left Join2
我在上一篇博客Hadoop实现LeftJoin操作上已经分享过一种实现LeftJoin操作的方法。这次分享一种自定义数据类型来实现LeftJoin,该方法相对与之前的方法要更高效。简单来说,之前分享的方法是把两张表先按照同一种格式去map,也就是说无论是员工表还是公司表都是一样处理,只不过在Reducer时进行判断,将原本为null的内容替换,所以会有不少的浪费。而本次介绍的方法,自定义一种数据类型原创 2017-09-02 00:40:53 · 409 阅读 · 0 评论 -
RDF数据库Stardog安装(Ubuntu)
原文 RDF是资源描述框架(Resource Description Framework)的简称,RDF是一种用于描述网络资源的标准。很多知识图谱把数据存储成RDF格式,使用RDF数据库来管理这些数据十分有必要。这里记录一下一种功能强大的RDF数据库Stardog的安装。获得download link和license keyStardog提供企业版和社区版,企业版有30天试用期,社区版当然是免费的原创 2017-12-22 22:03:31 · 1792 阅读 · 0 评论 -
现代硬件架构下的Parallel hash join算法
原文链接读论文 Spyros Blanas, Yinan Li, Jignesh M. Patel: Design and evaluation of main memory hash join algorithms for multi-core CPUs. SIGMOD Conference 2011: 37-481. 背景如今硬件发展非常迅速,摩尔定律指出”集成电路上可容纳的晶...原创 2018-03-13 10:49:41 · 1617 阅读 · 0 评论 -
现代硬件架构下的Parallel Hash Join算法2
原文链接论文Cagri Balkesen, Jens Teubner, Gustavo Alonso, M. Tamer Özsu: Main-memory hash joins on multi-core CPUs: Tuning to the underlying hardware. ICDE 2013: 362-3731. 前言影响哈希连接算法的因素主要有两点:一是cache命中...原创 2018-03-13 10:55:28 · 1354 阅读 · 0 评论