
听论文报告总结
woniu317
开始刷leetCode,补充基础。个人邮箱:woniu317@126.com
展开
-
空间文本查询-摘要
今天讲了Spatial Keyword Query Processing: An Experimental Evaluation这篇文章,现总结摘要如下:一、应用背景1. 解决的问题当前的基于空间文本的索引没有在同一个框架下进行一个系统的比较,因此很难选择出支持某个方法最好的索引结构。作者对12中最好的空间文本进行了全面的研究,并通过实验对每中索引结构进行了总结。2. 最常用的查询原创 2013-08-25 11:37:03 · 1934 阅读 · 0 评论 -
基于路网的最佳位置选择
1. 问题分析最佳位置(Optimal Location)查询是一种在资源规划中极其有用的一类空间查询。给定一个现存的基础设施和人群的信息,最佳位置查询给出设施能发挥最大效用的位置。1.1 三个查询作者给出了三种不同类型的相关查询:查询1. 修建一个超市,显然需要查找一个能吸引更多顾客的位置(这里只考虑顾客到达超市的距离),即最佳位置应该为人群密集但超市却不多原创 2013-12-22 12:32:55 · 1438 阅读 · 2 评论 -
基于二维拓扑数的可达性查询
利用两个拓扑序号对深度优先搜索求解可达性查询进行剪枝操作,加快可达性查询效率。该方法索引较小,因此能处理大图(100000条边以上)。原创 2014-09-11 14:15:13 · 1166 阅读 · 0 评论 -
基于大规模RDF图的关键字查询
gfdasfadf1. 基础知识RDF图:RDF图是由三元组(subject, predicate, object)组成的有向图,subject通过predicate指向object,如图1-1所示为一个RDF图。通常用三元组的数量表示RDF图的大小。图1-1 RDF图RDF压缩图:基于RDF图的关键字查询先将图进行压缩为图G=(V, E)。其中节点V包括RDF图中原创 2014-06-16 15:14:29 · 7460 阅读 · 1 评论 -
描述地图上兴趣点的采样方法
1. 问题定义利用现有的地图查询可以得到很多信息,比如百度地图上查询“秦皇岛旅馆”,查询结果如图1-1所示,当点击任意一个“旅馆”会出现该旅馆的相关信息,包括具体地理位置、价格等相关信息。图1-1 百度地图搜索“秦皇岛旅馆”而作位一个老板可能更关注该地区的该地区一共有多少间房可供出租或该地区旅馆住宿一晚上的平均价格或者旅馆星级分布——各星级饭店各占比例。上述信息概括起来分别对应聚类原创 2014-06-30 16:56:03 · 2126 阅读 · 0 评论 -
基于多种转换语义的图数据库查询
Schemaless and StructurelessGraph Querying摘要1. 摘要由于图数据库的复杂模式和不同的信息描述方式,对于非专业用户来说查询复杂的图数据库是异常困难的。一个好的图查询引擎应该支持多种转化——同义词、缩略词、简写以及本体等等,并且应该能够对搜索结果进行一个很好地排序。基于此问题本文提出了一种新型的查询框架来方便用户查询,解放了为构造查询图而抓耳挠腮原创 2014-05-23 19:24:05 · 1940 阅读 · 0 评论 -
双向迪杰斯特拉
1. 问题定义已知:图G=(V, E),其中V表示顶点集,E表示边集。s,t为图G中任意的两个顶点。求:顶点s与t之间的最短路径。最短路径是指从s到t的所有路径中长度最小的那条路径。2. 问题求解2.1迪杰斯特拉迪杰斯特拉按照离原点s的距离从近到远以此扩展的方式寻找最短路径。2.2双向迪杰斯特拉显然若s与t之间的最短路径长度为d,则迪杰斯特拉方法需要搜索一个半径原创 2014-03-10 09:51:38 · 7843 阅读 · 0 评论 -
中国计算机学会推荐国际学术会议(数据库)
一、A类会议简称会议全称出版社网址SIGMODACM Conference on Management of DataACMhttp://www.sigmod.orgVLDBInternational Conference on Very Large Da转载 2013-12-25 20:05:33 · 1640 阅读 · 0 评论 -
基于划分的字符串相似性连接
编辑距离是衡量字符串相似度的一种常用方法。编辑距离是指将一个字符串变为另一个字符串所需要的最少的操作次数,其中操作包括插入、删除和替换。字符串相似性连接是指从两个字符串集合中选出所有相似性大于阈值的字符串对。特别的有当两个字符串集合为同一集合时,叫做自连接(self-join)。看过的文章中均以自连接举例子,但无论何种方法都容易扩展到非自连接。基于编辑距离的连接多数采用q-gram和Trie树原创 2013-12-24 10:53:04 · 2958 阅读 · 2 评论 -
基于图的高级关键字查询
作为Internet搜索引擎的主要工具——关键字搜索最近已经在结构化和半结构化数据中被研究。另外积极和消极关键字的表达,搜索结果的形式同样值得探索。积极是指搜索结果中必须包含或者可选择包含的关键字,消极是指搜索结果中必须不能包含的关键字。1. 问题定义 查询Q={Kr, Ko, Ku, h, disMAX},其中Kr表示搜索结果中必须出现的关键字;Ko表示索搜结果中可选择的原创 2013-12-15 21:00:39 · 1174 阅读 · 0 评论 -
最近邻居搜索——压缩存储
1. 问题定义最近邻搜索就是在空间数据库中找出包含查询关键字且离查询点最近的k个数据点,其中k为常数。2. 现有方法2.1IR2-tree(Information Retrieval R-tree)基本思想:(1) 利用哈希将每个关键字映射为位串(bit string);(2) 用R树将组织所有数据;(3) 将位串信息嵌入到R树结点中作为关键字信息,叶子结点原创 2013-12-03 16:38:09 · 1696 阅读 · 0 评论 -
检索结果聚类、排名
1. 问题定义 例如我们在Google scholar上搜索databasehistogram的结果如图1-1所示。注意到搜索结果又22万条,而Google只提供了按相关性排序和按日期排序两种方式。若两条检索结果除了包含查询关键字外还包含至少一个其它关键字,则将他们聚为一类。依据包含相同关键字的属性值得分对聚集类进行排序,而他们的得分是根据为他们属性值之和。属性之包括被引用次数、原创 2013-12-03 19:56:51 · 2044 阅读 · 0 评论 -
近似最短距离之个人思考
3. 个人思考 在论文中提到用局部地标标签来降低错误,且局部地标标签是在生成树中求得的,因此最短路径生成树决定了局部地标标签选择的“准确性”。如图3-1为原图的一部分,令其中每条边的权值为1,顶点a为全局地标标签。图 3-1 以a为根结点的最短路径生成树如图3-2中生成树1所示。由原创 2013-11-29 13:48:10 · 1112 阅读 · 0 评论 -
基于路网距离的最近邻居查询
最近邻搜索算法指在一个基于路网的图中查找离查询点最近的k个特定的点,比如加油站。现有的基于迪杰斯特拉的搜索算法具有很大的盲目性,需要查询很多无关结点。如图所示,v6为查询点,而v7和v8为能满足要求的目标点,取k=1。显然有结点v7是我们查询的结果,但采用迪杰斯特拉算法需要遍历结点:“v1、v2、v3、v4、v5、v6、v7、v9、v10”。显然在查询点右侧是肯定不存在查询结果的。针对于此缺陷原创 2013-11-24 13:50:04 · 1466 阅读 · 0 评论 -
汉明距离 vs 编辑距离
1 汉明距离 在信息论中,两个等长字符串之间的汉明距离是两个字符串对应位置的不同字符的个数。例如,1011101 与 1001001 之间的汉明距离是 2。 汉明距离是以理查德·卫斯里·汉明的名字命名的,汉明在误差检测与校正码的基础性论文中首次引入这个概念。在通信中累计定长二进制字中发生翻转的错误数据位,所以它也被称为信号距离。汉明重量分析在包括信息论、编码理论原创 2013-11-22 15:32:48 · 5433 阅读 · 0 评论 -
基于局部landmark的近似最短距离计算
1. 研究动机1.1 问题计算思想在大图中精确的计算图中两个顶点之间的最短距离非常耗时。现有方法的计算思想:(1) 选取一些顶点作为地标标签;(2) 存储每个顶点到所有地标标签的实际最短距离;(3) 任意一对顶点(s, t)之间的距离D(s, t) = min{D(s, li)+D(li, t)},其中li为第i个地标标签。1.2 地标标签的选择地标标原创 2013-11-28 19:13:40 · 2045 阅读 · 2 评论