
数据库与知识工程
文章平均质量分 55
HashCodeWithJava
这个作者很懒,什么都没留下…
展开
-
Oracle10g启动与关闭的方法
Oracle10g启动与关闭的方法 Oracle10g和之前的Oracle似乎有点不一样.照理来说,直接使用bin下的dbstart就可以启动了,可是奇怪的就是启动不了.后来我从网上搜索了以下,并且在自己的机器上测试了一下,总算是找到一个可行的办法:1. 启动Oracle10g 以Oracle帐号登陆Linux,或者从root下输入su - oracle变成oracle帐号,原创 2006-01-21 22:33:00 · 8581 阅读 · 1 评论 -
写好英语科技论文的诀窍
周 耀 旗印地安那大学信息学院印地安那大学医学院计算生物学和生物信息中心以此文献给母校中国科技大学五十周年校庆前 言 我的第一篇英语科技论文写作是把在科大的学士毕业论文翻译成英文。当我一九九零年从纽约州立大学博士毕业时,发表了20多篇英语论文。 但是,我对怎样写高质量科技论文的理解仍旧处于初级阶段,仅知道尽量减少语法错误。这是因为大多数时间我都欣然接受我的博士指导老师Dr. Georg转载 2007-06-20 12:57:00 · 4341 阅读 · 1 评论 -
C++中的typename和class完全一样吗?
在模板中,定义模板类型template和template都是一样的。C++书上说,因为template里面的class和类定义class名字有重合,为了防止歧义,引入typename来取代template中的class。但是,typename并不完全等于class的作用。typename还有一个作用。下面以STL中的源码 在STL中的map源代码文件中,看到map的如下定义:原创 2007-09-21 20:12:00 · 2637 阅读 · 0 评论 -
来研究院都快半年了
打开自己的blog,发现了3个月前写的一篇总结。从五一到现在,来北京研究院都半年了。这边的工作和生活感觉还是挺适应的。最近导师他们从NDBC开会回来,据说这次NDBC举办得很成功,还发邮件激励我们硕2的都赶快选题,言下之意就是我们硕2的都应该去投一篇。本来去年就打算投一篇NDBC的论文,不过后来因为各种各样的事情耽误了,那么到了硕2的,无论如何也得去投一篇,就算是为了毕业。说起来师兄都在笑话我原创 2007-10-28 00:31:00 · 2773 阅读 · 1 评论 -
讨论班上汇报的P2P Database论文
总算在这学期,第一次在讨论班上汇报了一篇论文。这学期的论文都是今年的SIGMOD会议上的文章,而我这次汇报是一篇P2P相关的Database文章"P-Ring An Efficient and Robust P2P Range Index"。P2P主要在系统的Scalability和Fault-tolerance上比较突出。这也算是我第一次那么仔细读完一篇SIGMOD的文章。 实验室的同学从原创 2007-12-22 01:51:00 · 1691 阅读 · 1 评论 -
C Low-Level I/O functions
以前在看别人的很多代码时候,经常看到低级的C语言文件I/O函数。不过自己却从来还没有用到过低级的I/O函数。在纯C里面就f开头的stream用得多。这次要做SIDB在底层实现数据库存储文件,就得必须依靠低级文件I/O才能做了。因为低级文件I/O提供了某些功能,而高级文件I/O函数中没有。 这是我在网上找到为什么要使用低级IO的一些原因: 摘自: http://www.linuxtopi原创 2007-12-24 14:30:00 · 2382 阅读 · 0 评论 -
做研究,没有基础怎么行
以前听说过很多人一个月,一个星期就可以写一篇文章出来,于是觉得只有有一个idea马上就可以写论文了,特别是对于很多职业写手来说,一年发个7,8篇的EI文章是很轻松的事情。其实,一个普通的idea,平时随时都可以想到,但是99%可能都是前人想过的,甚至做过得。为什么自己会觉得是一个新idea? 我想主要原因还是因为自己看得比较少,读的论文比较少,知识面比较狭窄导致的。一般人要找一个现在没有前人完原创 2008-01-07 01:24:00 · 4462 阅读 · 8 评论 -
使用GSL来做实验
熟悉C++做开发的我们,对于matlab, mathematics等软件总是不太习惯。同时,很多research的实验程序需要进行efficiency的对比,所以大部分采用C++是比较合适的。但是诸如矩阵运算,least-squares,随机分布函数等常规数学工具库,matlab实现起来是很直接的。幸好,GNU有一个GSL(GUN Scientific Library)库,里面使用Pure原创 2008-05-22 09:29:00 · 1439 阅读 · 0 评论 -
Continue to study the advanced experimental programming tools
After having the taste of GSL, somehow, it is not considered as the MATLAB that used in a large group of people. Furthermore, the graphics function and data visualization of MATLAB are important to m原创 2008-06-06 12:52:00 · 1164 阅读 · 0 评论 -
SCU BSS讨论帖子
==============回复1================ 算法是计算机科学领域最重要的基石之一,但却受到了国内一些程序员的冷落。许多学生看到一些公司在招聘时要求的编程语言五花八门,就产生了一种误解,认为学计算机就是学各种编程语言,或者认为,学习最新的语言、技术、标准就是最好的铺路方法。其实,大家被这些公司误导了。编程语言虽然该学,但是学习计算机算法和理论更重要,因为计算机语言和开发原创 2008-06-19 13:29:00 · 1667 阅读 · 8 评论 -
The Road of Hacking PostgreSQL (1)
最近在写一些大规模数据存储和查询的小程序,发现很多核心的技术还是来自于我们的数据库技术。然后,真正到做的时候才晓得原来自己对于数据库很多本质的东西的理解并不透彻。我感觉,数据库技术真正核心的是数据的物理存储,外存内存交互,索引这些东西。而关系代数,SQL语言这些都是其次的。诸如现在的Google的bigTable等东西,其实最本质的技术还是在数据库领域。和真正做数据库的同学聊原创 2009-01-20 13:37:00 · 3204 阅读 · 3 评论 -
WAIM09,再进一步
记得投WAIM之前导师就是说过,现在国内针对WAIM的竞争越来越激烈,要突破国内的诸多名牌大学把持的圈子越来越难了。从这次WAIM审稿看得出来,的确如此,以前一篇文章经过3审,现在变成4审了。其实这是一件好事情。要不是4审,我的文章真可能被某人毙了。毕竟,WAIM的程序委员会成员相当大部分都是非内地高校的教授,他们并不参与国内的学术竞争。从ADMA08也看出来,特别是老外,对于文章审稿原创 2009-01-18 15:49:00 · 3538 阅读 · 0 评论 -
关于BI引擎
最近一直在搞实验室和华西出生缺陷中心合作的项目。本来当初我们计划直接在我们当初开发的OpenMiner基础上改进。但是后来在一次开会上,师兄介绍了开源的BI引擎Pentaho(http://www.pentaho.com/)之后,发现Pentaho正是我们当初开发OpenMiner的时候想做的一切。记得还是本科毕业设计的时候,我们也帮学校教务处的运行科做一套数据分析的系统。虽然那个时候W原创 2009-01-18 15:50:00 · 5630 阅读 · 1 评论 -
关于数据库系统的学习
前段时间加入TopLanguage的Group,发现这里圈子的还有不少朋友认得我。不少朋友从本科就开始关注,虽然我们并不相识。原以为我的blog会是孤岛,看来自己还是应该花不少时间去更新一下自己的blog了。写blog更多也是对自己生活,学习和工作的总结。记得最早接触blog的还在是04年初,还记得那个时候因为获得了Microsoft的MVP,认识了微软的Grace,在和她的交流中原创 2009-03-20 22:56:00 · 6052 阅读 · 1 评论 -
Introduction to Fuzzy System
Introduction to Fuzzy System Writer :unkonwn , Publication Date: 2004-12-12 Fuzzy Logic - a powerful new technology Fuzzy Logic has emerged as a a profitable tool for the controlling of转载 2007-02-23 12:07:00 · 4124 阅读 · 0 评论 -
韩家炜教授的学术报告会
全世界学习数据挖掘的学生都以韩家炜先生编写的《Data Mining: Concepts and Techniques 》作为教材。早在本科毕业设计之前,我和几位同学就在仔细研究韩老师这本教材。作为一个华人,能够在美国计算机排名第五的伊利诺斯大学成为计算机和生物学院的教授,肯定是了不起的人物。韩教授其实很早出国了,之前主要研究的领域是数据库系统,而后转向数据挖掘。 发现很多以前搞数据原创 2006-08-08 22:47:00 · 5914 阅读 · 0 评论 -
OpenMiner数据挖掘引擎的主要技术和大体框架
1 数据挖掘技术的基本概述1.1 数据挖掘技术的基本概念随着计算机技术的发展,各行各业都开始采用计算机及相应的信息技术进行管理和运营,这使得企业生成、收集、存贮和处理数据的能力大大提高,数据量与日俱增。企业数据实际上是企业的经验积累,当其积累到一定程度时,必然会反映出规律性的东西;对企业来,堆积如山的数据无异于一个巨大的宝库。在这样的背景下,人们迫切需要新一代的计算技术和工具来开采数据库中原创 2006-07-04 21:07:00 · 7854 阅读 · 3 评论 -
JDBC中获取数据表的信息
JDBC中通过MetaData来获取具体的表的相关信息。可以查询数据库中的有哪些表,表有哪些字段,字段的属性等等。MetaData中通过一系列getXXX函数,将这些信息存放到ResultSet里面,然后返回给用户。关于MetaData的说明网上也有不少,这里我只是从我自身学习的角度来记录一下简单使用JDBC以及获取数据表相关信息的方法。 首先,http://hometown.aol.原创 2006-03-13 14:27:00 · 2040 阅读 · 0 评论 -
openminer中挖掘关联规则的算法实现概述
关联规则挖掘算法很简单,比如Apriori,FPG这些都是典型的基础算法。但是一般的书籍却很少提到如何在真是的数据库上实现。真实的数据库不一定是海量数据库,哪怕是一个记录超过1W的关系表,如果属性很多,超过20个,那么中间过程中产生的候选项集也是很庞大的。其实所需的内存主要是保存候选项集和频繁项集。 候选项集的产生是组合交叉产生的,如果以组合公式来计算,属性个数N=20,那么产生的候原创 2006-03-12 00:52:00 · 2303 阅读 · 2 评论 -
使用分页查询来适应挖掘海量数据的需求
数据挖掘各类算法中,常常需要遍历整个数据库(表)。现实中的数据库可能十分大,往往不可能通过一个简单的Select *的方式遍历提取数据表内的所有元组。直接用Select * 的方式存在两大问题,一是Select *过后,可能要等很久数据库才能将所有信息提交完毕,第二是得到的结果可能是很大,远远超过内存的限制。 现在各种主流的数据库都支持了分页查询的方式。 以Oracle为例,通原创 2006-03-18 16:02:00 · 2714 阅读 · 2 评论 -
开启了我的第一个开源项目OpenMiner
昨天,总算把OpenMiner作为自己的第一个开源项目的Subversion和Wiki的开启了。OpenMiner其实是我的本科毕业设计的一个核心项目,是一个数据挖掘的核心组件。下面是OpenMiner的Wiki地址: http://wiki.javascud.org/display/openminer/Home,SVN地址是: http://svn.javascud.org/svn/open原创 2006-02-15 21:19:00 · 2906 阅读 · 2 评论 -
OpenMiner的一个参考项目Weka
Weka是数据挖掘开源项目中最著名的一个.同时基于JAVA,Weka整个项目代码庞大,结构完整,数据挖掘的几个核心方法的算法都在于内,还包含了完整GUI部分。但是OpenMiner并不打算一下子就做到Weka那么完整,OpenMiner相当于Weka的最大区别可能就是在于跟数据库紧密。Weka虽然结构简单,但是直接使用,还是需要花费不少时间。而数据挖掘跟数据库需要很好的紧密,通过标准DMQL这原创 2006-02-17 09:20:00 · 2211 阅读 · 1 评论 -
近期我对挖掘多维关联规则和Apriori挖掘事务数据的看法
这几天我对数据挖掘中的关联挖掘有不少的疑问,看了教材上的Apriori算法。但是在实际挖掘算法的实现上遇到了一些问题。Apriori算法在《数据挖掘:概念与技术》的教材上演示的是针对事务数据的挖掘,类似这样的{I1,I2,I3}这样的事务数据集,并不要求I1,I2,I3之间是在同一张表上。而挖掘多维数据,那么是指的多维属性,比如 buys(X,"beef") ^ buys(X,"beer")原创 2006-02-24 22:11:00 · 9030 阅读 · 3 评论 -
Weka项目中的ARFF文件结构解析
Weka作为数据挖掘开源项目中的经典,很多算法和数据的组织结构是值得学习的。Weka里面大量使用了一种叫做arff(Attribute-Relation File Format )的数据文件结构。这种arff文件内部结构很简单,主要是测试算法使用的轻量级的数据文件结构。OpenMiner继承Weka的风格,也打算支持arff文件格式,并且作为前期的挖掘算法测试数据来源。下面是我从网上找到的关于原创 2006-02-26 21:42:00 · 14303 阅读 · 1 评论 -
收藏一个关于ORACLE自动启动的小技巧
#!/bin/shecho "begin to start oracle"su - oracle -c "lsnrctl start"su - oracle -c "agentctl start"su - oracle -c "sqlplus /nolog" connect /as sysdbastartup openexit##以下部分为自动停止#!/bin/shsu - ora转载 2006-05-12 10:22:00 · 1305 阅读 · 0 评论 -
openminer的sourceforge项目申请成功了
整个openminer数据挖掘引擎的开源项目申请挺顺利的,唯一麻烦一点的就是需要填写一大段英文的项目描述。不过从昨天到今天,总共24小时,基本上所有的sf.net服务都已经给我开通了。只是现在我还没有制作任何主页和文件上传到sourceforge.net的服务器上。 下面是我的openminer的项目描述,英文的:openminerWith the volume of the da原创 2006-10-04 11:16:00 · 2352 阅读 · 4 评论 -
开始筹划第一篇paper了
国庆的假期就这样完了。昨天总算和师兄讨论了一下我的论文的想法,师兄一来就提出,在real-time data stream情况下,GEP根本不可能做到多好,于是,这一句话,就让我剩下讨论的所有为了让GEP快速适应data stream的所有方法都显得没有价值了。交流总是有效果的,当初做一篇paper是为了解决一个问题,但是实际讨论过程中,又会产生新的问题,于是,最后的paper可能就变成解决新原创 2006-10-08 01:50:00 · 1722 阅读 · 1 评论 -
ORACLE中表,视图名变大写和BLOB操作的问题
1. 表,视图创建后名字全部变成大写 通过JDBC中的DatabaseMetaData.getTables函数可以来查询当前数据库的MetaData,既可以查询一些数据表和视图等很多信息。但是,ORACLE在当你创建完成,名字全部变成了大写,如果在getTables中,参数名字输入的是小写,那么将查询不到该表或者该视图。 其实,getTables函数也是通过SQL语句来查询一个叫做原创 2006-05-30 18:48:00 · 3018 阅读 · 0 评论 -
对OpenMiner进行了一系列手术
OpenMiner已经成为了sourceforge的approval项目。与此同时,我们也开始紧张地对OpenMiner进行了一系列的外科手术。我现在做的主要是服务器部分的裁剪,尽量把OpenMiner的核心做得更加简单,更加具有扩展性。而OpenMiner现在还没有可视化的客户端,另外一个同学grand现在也开始加紧赶制OpenMiner的客户端,我们的客户端打算仿造Yale。原创 2006-10-22 00:13:00 · 1797 阅读 · 2 评论 -
本科毕业论文中关联规则挖掘的简介
1 关联规则的基本概念1.1 关联规则的意义 世间万物的事情发生多多少少会有一些关联。一件事情的发生,很可能是也会引起另外一件事情的发生。或者说,这两件事情很多时候很大程度上会一起发生的。那么人们通过发现这个关联的规则,可以由一件事情的发生来,来推测另外一件事情的发生,从而更好地了解和掌握事物的发展,动向等等。这就是数据挖掘中,寻找关联规则的基本意义。 在高校教务管理中原创 2006-06-17 19:22:00 · 4231 阅读 · 1 评论 -
整理一些Markov Random Field以及Graph Model的基础学习资料
最近对于Markov Random Field等Graph Model有点兴趣,想系统学习一下这方面的知识。但是发现网上搜索的很多论文都是比较深入,不知道从何下手。下面是我收集到的一些不错的资料。1. 首先是video lecture上的Prof. Charles Elkan在CIKM08 tutorial (http://videolectures.net/cikm08_elkan_llmacrf)的video。他从最最最基本的probability, maximum likelihood开始讲,原创 2010-11-07 06:09:00 · 16941 阅读 · 10 评论