- 博客(58)
- 收藏
- 关注
原创 现代硬件架构下的Parallel Hash Join算法2
原文链接论文Cagri Balkesen, Jens Teubner, Gustavo Alonso, M. Tamer Özsu: Main-memory hash joins on multi-core CPUs: Tuning to the underlying hardware. ICDE 2013: 362-3731. 前言影响哈希连接算法的因素主要有两点:一是cache命中...
2018-03-13 10:55:28
1347
原创 现代硬件架构下的Parallel hash join算法
原文链接读论文 Spyros Blanas, Yinan Li, Jignesh M. Patel: Design and evaluation of main memory hash join algorithms for multi-core CPUs. SIGMOD Conference 2011: 37-481. 背景如今硬件发展非常迅速,摩尔定律指出”集成电路上可容纳的晶...
2018-03-13 10:49:41
1613
原创 RDF数据库Stardog安装(Ubuntu)
原文 RDF是资源描述框架(Resource Description Framework)的简称,RDF是一种用于描述网络资源的标准。很多知识图谱把数据存储成RDF格式,使用RDF数据库来管理这些数据十分有必要。这里记录一下一种功能强大的RDF数据库Stardog的安装。获得download link和license keyStardog提供企业版和社区版,企业版有30天试用期,社区版当然是免费的
2017-12-22 22:03:31
1785
原创 Knowledge Graph 相关数据集、人员、会议等整理
[原文链接][https://crisjk.github.io/2017/12/04/knowledgeGraphInvolved/]看论文时涉及到的一些知识图谱相关的研究人员、工具、数据集等,顺手整理出来,持续更新中~Researchers List刘知远 清华大学NLP实验室周国栋复旦大学自然语言处理实验室伦敦大学 Sebastian riedel斯坦福NaturalLanguageP
2017-12-04 21:27:44
1705
原创 LDA主题模型要概括
本文为学习LDA主题模型的笔记,主要是对LDA主题模型进行一个简单的概括,具体的细节及推导可以参见:非常详细的参考资料一、问题提出什么是主题模型?什么是LDA? 将文档集中,每篇文档的主题按照概率分布的形式给出,属于无监督的学习算法。需要的输入仅仅是文档集和指定的文档主题数量K 隐含狄利克雷分布(Latent Dirichlet allocation)简称LDA。LDA是一种典型的词袋
2017-10-25 20:17:46
2314
原创 中文分词原理及实践
简要介绍中文分词的原理中文分词原理中文分词算法可以分成以下几种基于词典的方法基于统计的方法基于规则的方法基于词典的方法正向最大匹配1) 正向最大匹配算法首先从句首(文章首部)开始选取m个字符作为待匹配字段,m为词典中最长词条的字符个数。2) 将待匹配字段与词典进行匹配,若匹配成功则说明待匹配字段可以当成是一个词3) 若匹配失败,则将待匹配字段的最后一个字符去掉,再用新的待匹配字段与词典中的词
2017-10-20 17:08:45
408
原创 支持向量机专题——线性支持向量机
线性支持向量机简介当数据线性不可分时,使用硬间隔支持向量机很难得到理想的结果。但是如果数据近似线性可分,可以采用软间隔支持向量机(线性支持向量机)进行分类。这通常适用于有少量异常样本的分类,如果使用线性支持向量机,它会尽量使得所有训练样本都正确,如下图所示。显然这并不是最好的结果,软间隔支持向量机可以权衡“间隔最大”和“误分类点最少”,得到以下结果。推导基于线性可分支持向量机,我们增加一个可”容忍“
2017-10-10 11:54:00
506
原创 使用Spring boot 创建web工程
![原文][https://crisjk.github.io/2017/09/06/SpringBootStart/]利用Springboot新建一个web工程方法有很多种,一种比较方便的方法就是直接访问Spring INITIALIZR,填好信息,然后Alt + Enter键直接生成即可。然后使用IDE(对不起我比较low)import刚才生成的项目,我是使用maven方式导入的。导入完之后进到p
2017-09-06 20:36:24
596
原创 TSP问题求解方法
原文一名旅行商准备前往若干个城市推销他的产品,他想要从驻地出发,经过每个城市恰好一次,最后返回驻地,求满足条件的最短路径。这便是旅行商问题。旅行商问题是一个NP问题,至今尚未有准确的解法,现有的算法只能尽可能减小误差。目前最优的算法能在误差1%范围内估计上百万个城市的问题。改良圈算法改良圈算法的思想是首先求出一个哈密顿圈C,然后通过适当地修改哈密顿圈得到具有较小权值的另一个哈密顿圈。设初始圈C=v1
2017-09-02 00:52:28
7919
原创 支持向量机专题——线性可分支持向量机
原文支持向量机(support vector machine, SVM)是一种经典的分类器,其主要思想是学习一个在特征空间上使间隔最大的分类器。支持向量机的学习可以看成是一个求解凸二次规划问题的过程,同时也等价于正则化的合页损失函数的最小化问题。支持向量机可以分为:线性可分支持向量机、线性支持向量机、非线性支持向量机三种。当训练数据线性可分时,可通过硬间隔最大化,学习一个线性可分支持向量机(也称为硬
2017-09-02 00:50:09
864
原创 RMQ和LCA在线算法
原文 学习一下LCA的在线算法。RMQRMQ是查询区间最值的一种方法,其思想非常简单。举例来说,我们想查询区间[5,37][5,37]中的最小值,如果我们事先知道区间[5,5+24)[5,5+2^4)中的最小值以及区间[37−24+1,37+1)[37-2^4+1,37+1)中的最小值,那么我们很容易得到答案。于是问题就变为,我们如何知道区间[i,i+2k)[i,i+2^k)中的最小值。显然Min
2017-09-02 00:48:29
472
原创 梯度下降
原文在机器学习中,梯度下降是十分常见的一种方法。在很多机器学习算法中,对于参数的学习调整,采用的方法都是梯度下降。可以说,梯度下降是每一个学习Machine Learning 的人必须彻底掌握的方法。只有理解了梯度下降,才能初步对于机器学习有所了解。接下来,这篇博客将从头到尾详细讲述一遍梯度下降。首先必须说明的是,这篇博客是参照Andrew Ng讲解的《Machine Learning》课程中关于梯
2017-09-02 00:45:10
381
原创 使用weka内置算法分析数据(图形界面操作)
原文 本文使用weka中内置的三种分类算法(naive bayes,SVM,Logistic Regression)根据收集到的鸢尾属植物的数据进行分类,通过精度和效率对三种算法进行比较。1、鸢尾属植物的分类数据中包含鸢尾属植物的四种属性。四种属性分别是萼片长度、萼片宽度、花瓣长度、花瓣宽度。数据中还包含鸢尾属植物的三种种类,分别是:Iris-setosa(山鸢尾)、Iris-Versicol
2017-09-02 00:43:29
3781
原创 Hadoop Left Join2
我在上一篇博客Hadoop实现LeftJoin操作上已经分享过一种实现LeftJoin操作的方法。这次分享一种自定义数据类型来实现LeftJoin,该方法相对与之前的方法要更高效。简单来说,之前分享的方法是把两张表先按照同一种格式去map,也就是说无论是员工表还是公司表都是一样处理,只不过在Reducer时进行判断,将原本为null的内容替换,所以会有不少的浪费。而本次介绍的方法,自定义一种数据类型
2017-09-02 00:40:53
407
原创 Hadoop Left Join
数据库的Left Join操作就不解释了,参考图解SQL的各种连接操作 下面来说说如何用hadoop的MapReducer实现数据库的LeftJoin。其实这是个非常简单的过程,举例说明:假设有两个表employee和salary Employee companyId Employee jd, david jd, mike tb, mik
2017-09-02 00:39:47
527
原创 Hadoop-Invert-Index
Hadoop-Invert-Index倒排索引是文档检索系统中最常见的数据结构,被广泛用于全文索引引擎。它主要是用来存储某个单词(或词组)在一个文档或一组文档那该的存储位置的映射,即提供了一种根据内容来查找文档的方式。由于不是根据文档来确定文档所包含的内容,而是进行了相反的操作(即根据关键字来查找文档),故称为倒排索引。源码import java.io.IOException; import j
2017-09-01 23:41:45
329
原创 uva 10862 Connect the Cable Wires大整数类c++
1: 12:1+(1+1)3:1+2+(2+3)4:1+2+5+(5+8)而斐波那契数列1 1 2 3 5 8……因此推出a[n]=a[n-1]+fib[2*i-1]+fib[2*1-2];java代码import java.util.*;import java.math.*;public class Main { public static void main(
2015-03-05 18:23:03
408
转载 经典过桥问题证明
例题:poj 1007 poj 3404 poj 2573一、问题 在漆黑的夜里,四位旅行者来到了一座狭窄而且没有护栏的桥边。如果不借助手电筒的话,大家是无论如何也不敢过桥去的。不幸的是,四个人一共只带了一只手电筒,而桥窄得只够让两个人同时过。如果各自单独过桥的话,四人所需要的时间分别是1、2、5、8分钟;而如果两人同时过桥,所需要的时间就是走得比较慢的那个人单独
2015-02-04 22:13:47
1021
原创 poj2738 Two Ends
题目题目大意:两个人玩游戏,一些牌排成一行,当前玩家可以从最左端或者最右端拿一张牌,第一个人永远选择最优的方案,第二个人总是贪心的拿当前牌堆左右两端更大的,求最后第一个人拿的数字之和比第二个人大多少。解题思路:题意和当时科创月赛的题很像,月赛时两个人都是选择最优方案。当时不懂dp(现在也只是初学),现在看来记忆化处理即可。对于每次拿牌,第一个人总是选择最优方案,因此可以搜索一下,即左右都拿
2015-02-03 21:31:39
633
原创 poj 2607
Fire StationTime Limit: 5000MS Memory Limit: 65536KTotal Submissions: 3846 Accepted: 1362DescriptionA city is served by a number of fire stations. Some resident
2015-01-31 15:42:51
411
原创 poj1511 Invitation Cards (前向星?)
Invitation CardsTime Limit: 8000MS Memory Limit: 262144KTotal Submissions: 20249 Accepted: 6618DescriptionIn the age of television, not many people attend theat
2015-01-29 22:26:08
414
原创 poj3667线段树
题意:输入n,m; n代表1-n的区间,m代表有m个操作。对于每个操作如果先输入1,则输入w,找到区间最左边未被占用的连续长度为w的区间,返回左端点,并把这段区间标记为已被占用。如果整个区间没有找到符合条件的区间。则返回0.
2015-01-20 21:42:54
377
原创 poj2649 Factovisors 质因数分解
需注意,判定的时候应该是分解出一个m的质因子就比较一次,而不是分解完后再比较,细节上处理要注意,比如当pr[i]不属于m的质因子时直接跳过,这样当m为一个大质数的时候不至于runtimr error#include#include#include#include#define maxn 100001using namespace std;bool valid[maxn];int
2015-01-20 14:13:27
446
原创 欧几里得(辗转相除)证明
gcd(a,b)=gcd(b,a%b) a>0, b>0证明: 假设最大公约数为c 则a=kc,b=jc (k,j均为整数)① 由于c为最大公约数 ,所以k,j必然互质。②另r=a mod b 则 a = bm+r 由此可得 r=a-bm = a - mjc = (k-mj)c③ 我们现在要证明的命题是gcd(a,b)=gcd(b,a%b) ,已知gcd(a,b)
2015-01-19 15:50:58
444
原创 sgu323 Aviamachinations
题目大意:n个城市,m个航空公司,k条航线,接下来的k行,就是每条航线的起点终点,对应航空公司和这条线的权重,现在只保留一个航空公司要求仍够可以使所有城市直接或间接相连,对于不属于这个航空公司的航线需要出钱买,价格就是这条线的权重,输出最小的花费,保留哪家航空公司以及要够买的航线数(q),接下来的q行输出要购买的航线的编号解题思路:先按每条航线对应的花费做最小生成树,然后枚举航空公司(i->1
2015-01-17 11:50:45
563
原创 uva11733 Airports
两点之间,要么建飞机场,要么建路,求怎么做花费最小。最小生成树模板。只不过图不一定连通,做完kruskal后看下有几个连通分量,再用"飞机场"连起来,最后看之前铺的路的花费有没有比修飞机场来的高,如果费用更高,则不修路改为建飞机场。 #include #include #include #include #define N 10010#define M 100010us
2015-01-12 19:20:04
408
原创 uva10246- Asterix and Obelix
题目大意及思路:一个人从某个城市去另一个城市,在途经的某个城市(包括起点和终点)要请人吃饭,在每个城市吃饭的花费不同,在每个城市间行走所需费用也不同。现在他在旅途中吃饭最贵的城市请人吃饭,问总的花费最小是多少。Sample Input 7 8 52 3 5 15 4 4 61 2 201 4 201 5 502 3 103 4 103 5 104 5
2015-01-12 19:00:08
418
原创 poj 1237 The Postal Worker Rings Once
最短路径问题/*解题关键点:1、度数为奇数的顶点(简称为奇顶点)个数必然为偶数。2、题目说明奇顶点数目小于等于2,所以奇顶点必然为0或2,当奇顶点个数为0的时候,肯定是一笔走完(欧拉),当奇顶点个数为2时,就转化为单源最短路径,并且起点和终点就是两个奇顶点*/#include #include #include #include #include #define INF 100
2014-11-10 13:41:41
477
原创 poj 2528 Mayor's posters
离散话和区间修改:#include #include #include #include using namespace std;const int MAXN= 100010;int t[MAXN][2],s[MAXN<<3];struct tree{ int l,r; int color;}a[MAXN<<3];int ans=0;int vis[MAXN
2014-11-08 18:31:37
302
原创 线段树-poj3468
区间修改#include #include #include using namespace std;const int MAXN = 100010;struct tree{ int l,r; long long sum,lz;}a[MAXN<<2];long long value[MAXN];void Pushup(int k){ a[k].sum=
2014-11-08 18:28:45
321
原创 poj2352-线段树-start
#include #include #include #define N 32010using namespace std;struct tree{ int l,r; int sum;}a[4*N];void build(int l,int r,int k){ a[k].l=l;a[k].r=r;a[k].sum=0; if(l==r){
2014-11-08 18:27:27
368
原创 uva122-Trees on the level
#include #include #include #include #include using namespace std;const int N=260;string str[N];bool ffflag=true;struct Node{ string num; string dir;};bool cmp(Node a,Node b){ i
2014-10-31 15:48:07
329
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人