
e 其他
文章平均质量分 66
ICTExtr9
这个作者很懒,什么都没留下…
展开
-
相关研究组、个人主页链接
http://www.cs.uic.edu/~liub/ 比较流行的抽取方法 MDR 的作者之一http://www.cs.uic.edu/~yzhai/ 比较流行的抽取方法 MDR 的作者之一http://research.microsoft.com/users/znie/ 微软亚洲研究院的名人中国人民大学数据库与智能信息检索实验室原创 2009-01-06 16:17:00 · 1347 阅读 · 0 评论 -
Mozilla FireFox Gecko内核源代码解析(5.CNavDTD)
Mozilla FireFox Gecko内核源代码解析(5.CNavDTD)中科院计算技术研究所网络数据科学与工程研究中心信息抽取小组耿耘gengyun@sohu.com 上一章中我们介绍了nsHTMLTokens,再加上之前介绍的nsHTMLTokenizer,我们了解到火狐的HTML解析器首先HTML源代码进行分词并整理成一个个Token,这些Token是我们原创 2012-11-12 15:32:12 · 35303 阅读 · 0 评论 -
Mozilla FireFox Gecko内核源代码解析(1.nsParser)
Mozilla FireFox Gecko内核源代码解析(1.nsParser)中科院计算技术研究所网络数据科学与工程研究中心-信息抽取小组耿耘gengyun@sohu.com前言:在Web信息抽取的工作过程中,我们主要处理的都是经过各种处理HTML格式文档,而无论是DOM方式还是视觉方式的信息抽取,都需要对HTML进行解析,而最标准的解析器莫过于浏览器内核引擎,因此,对于原创 2011-12-30 16:42:52 · 14375 阅读 · 0 评论 -
Mozilla FireFox Gecko内核源代码解析(6.nsElementTable)
Mozilla FireFox Gecko内核源代码解析(6.nsElementTable)中科院计算技术研究所网络数据科学与工程研究中心信息抽取小组耿耘gengyun@sohu.com上一章中我们介绍了负责语法解析的CNavDTD模块,比如text这段HTML代码,我们会知道是不应直接作为table的直接子节点的,因而需要对其进行的补充,又如,我们知道这里缺少了节原创 2012-11-14 11:45:55 · 9359 阅读 · 0 评论 -
Mozilla FireFox Gecko内核源代码解析(4.nsHTMLTokens)
Mozilla FireFox Gecko内核源代码解析(4.nsHTMLTokens)中科院计算技术研究所网络数据科学与工程研究中心信息抽取小组耿耘gengyun@sohu.com之前我们分析了nsHTMLTokenizer(详见其解析篇),其中我们了解到了,其中设计了如何配合 nsScanner对输入流循环地解析流程,如怎么进行回溯等流式操作。实际上其中并没有包含具体的原创 2012-08-22 12:59:15 · 8701 阅读 · 0 评论 -
Mozilla FireFox Gecko内核源代码解析(3.nsScanner)
Mozilla FireFox Gecko内核源代码解析(3.nsScanner)中科院计算技术研究所网络数据科学与工程研究中心信息抽取小组耿耘gengyun@sohu.com 前面我们介绍了nsParser,nsTokenizer,它们之上都需要调用nsScanner获取基本的字符串信息,这里我们来介绍一下这个nsScanner。n原创 2013-03-08 16:31:27 · 34436 阅读 · 1 评论 -
关于HTML Parser的后续解析
通过之前的解析文章,其知识已经足够支持我们自己编写一个符合W3C标准(严格地说是Mozilla标准)的HTML Parser了,后面的ContentSink和Document,GenericHTMLElement等文件已经和其他模块(比如CSS,JS引擎部分耦合度很高)我就不一一解析了,完全可以靠自己利用接口去实现。在这些方面有兴趣或问题的读者(比如你想自己写一个HTML Parser)可直接联系原创 2012-12-24 15:52:36 · 5834 阅读 · 0 评论 -
信息抽取
IE 和 IR 的区别就其目的而言, IR (information retrieval)和 IE (informaton extraction)的不同可表达如下: IR 从文档库中检索相关的文档,而 IE 是从文档中取出相关信息点。这两种技术因此是互补的 什么是 IE ?从任务的角度的来看 获取网页或者文档中的文本片段并将其填充到数据库中从技术的角原创 2009-11-13 15:07:00 · 5007 阅读 · 0 评论 -
够专业,就不拍失业(转载)
够专业,就不怕失业 郑柯 业界知名的Bob大叔在不久前发表了“软件技艺宣言”,向外界大声宣告: 我们不仅要提供可以工作的软件,更要提供技艺精良的软件。转载 2009-05-07 15:28:00 · 3433 阅读 · 0 评论 -
svm原理简介
1. 模式识别总论第一种是经典的(参数)统计估计方法。现有机器学习方法共同的重要理论基础之一是统计学。参数方法正是基于传统统计学的,在这种方法中,参数的相关形式是已知的,训练样本用来估计参数的值。这种方法有很大的局限性。首先,它需要已知样本分布形式,这需要花费很大代价,还有,传统统计学研究的是样本数目趋于无穷大时的渐近理论,现有学习方法也多是基于此假设。但在实际问题中,样本数往往是有原创 2009-04-24 14:38:00 · 9498 阅读 · 0 评论 -
WordNet介绍和使用
Wordnet是一个词典。每个词语(word)可能有多个不同的语义,对应不同的sense。而每个不同的语义(sense)又可能对应多个词,如topic和subject在某些情况下是同义的,一个sense中的多个消除了多义性的词语叫做lemma。例如,“publish”是一个word,它可能有多个sense:1. (39) print,publish -- (put into print原创 2009-03-20 17:45:00 · 46438 阅读 · 0 评论 -
用统计方法进行信息抽取的几位研究人员
Shui-Lung Chuang 庄水龙(UIUC)2008Shui-Lung Chuang, Kevin Chen-Chuan Chang: Integrating web query results: holistic schema matching. CIKM 2008: 33-422007Shui-Lung Chuang, Kevin Chen-Chuan Chang,原创 2009-02-20 13:12:00 · 2934 阅读 · 0 评论 -
2009年相关会议的简要信息
Normal 0 7.8 磅 0 2 false false false MicrosoftInternetExplorer4 <object class原创 2009-01-16 15:57:00 · 1239 阅读 · 0 评论 -
推荐一个查找近期会议的网站-wikicfp
Wikicfp http://www.wikicfp.com/有很多人把各种会议的call for paper发到这个网站上。可以管理自己关注的会议列表并按照多种方式排序,比如,按deadline排序原创 2009-01-08 09:56:00 · 8960 阅读 · 3 评论 -
相关会议列表
在wikicfp上维护了一个信息抽取相关会议的列表:http://www.wikicfp.com/cfp/servlet/event.showlist?lownerid=2907<ype=w&page=1&sortby=0还有一些更广泛的,与web mining相关的会议:AAAI: American Association for Artificial IntelligenceIJCAI:原创 2009-01-06 16:21:00 · 1664 阅读 · 0 评论 -
Mozilla FireFox Gecko内核源代码解析(2.nsTokenizer)
Mozilla FireFox Gecko内核源代码解析(1.nsTokenizer)中科院计算技术研究所网络数据科学与工程研究中心信息抽取小组耿耘gengyun@sohu.com 前面我们大体介绍了nsParser的主控流程(nsParser.cpp),可知HTML解析一般分为两个阶段,即文法阶段的分词操作,和语法阶段的解析操作,前者一般来讲就是将HTML的标签分开,原创 2012-01-04 09:38:48 · 6324 阅读 · 1 评论