HNC工作历程
文章平均质量分 61
cs_
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
语义与文化的一点论述
罗常培先生的开拓性小书《语言与文化》中有一段谈及语义的一个特点,暂时记录于此: (第八章 总结p108) 社会的现象,由经济生活到全部社会意识,都沉淀在语言里面。马尔(Nicholai Yakovlevitch Marr,1864-1934)一派的耶费梯(Yafety)语言学特别重视语义的(semantic)研究,就因为语义的转变是跟着社会环境和经济条件起的,是动的而原创 2005-10-30 18:44:00 · 2041 阅读 · 0 评论 -
研究(研发)类项目的经验
在多元逻辑组合处理及标题语义分析的项目过程中体会到,研究型项目亦及早确定问题领域、算法框架以及评估体系,然后依据实验数据的分析与评估结果进行后继研发——即采用实验效果驱动模式。这个过程中,比较重要的一点是,实验会输出大量的实验数据,对这些实验数据制定评估标准,进行深入分析,审查机器利用原定算法思路所能得到的各种类型的处理结果(也就是黄老师所提到的对机器输出的语料的分析利用),从而进一步思考原算法的原创 2006-01-18 14:41:00 · 1696 阅读 · 0 评论 -
search花絮之关系运算命令
最近忙于一个搜索项目,忙里偷闲,记下其中的一个花絮。在检索式中,有一种关系运算的命令需要解析,以备检索之用。如: WordA 5W WordB这表示WordA和WordB之间可以出现0到5个任意词汇,且WordA和WordB的顺序不能改变。而“5W”,就是一个关系运算的命令。所有的关系运算命令用正则表达式来表达,就是:原创 2006-03-14 20:07:00 · 1126 阅读 · 0 评论 -
search花絮之堆合并
大规模词库的词汇检索是一个非常耗时的操作,所以其数据结构一般都是需要经过仔细设计的。单位里原有一个堆结构,最近将它模板化,并在它基础上做模糊查询。但原来没有词库的归并算法,这些日子不得不重新实现一个。算法的难点在于寻找合适的子块进行move操作以及调整该子块的所有相关指针。下面是测试例子之一:int _tmain(int argc, _TCHAR* argv[]){ CWo原创 2006-04-11 11:12:00 · 1159 阅读 · 0 评论 -
search花絮之语义处理
语义处理是自然语言处理前沿的热点,其关键作用正逐渐成为学科领域的共识,而我们的中文信息处理强项也在于语义处理,所以很自然就想把这一优势具体体现到搜索项目中来——但毫无疑问这是一个摸索的过程。最初我负责标题分析的研究,曾随机抽取了一些标题示例,例如: “移动存储设备”的例子[[+[移动存储设备]与[读写识别设备]]的[安全[认证方法]]][[改变移动存储设备[+功能或状态]原创 2006-04-12 11:47:00 · 2046 阅读 · 3 评论 -
评论《怎样度量信息》
Google黑板报上有一个系列《数学之美》非常的不错,到目前为止共有四期,链接分别如下:http://googlechinablog.com/2006/04/blog-post.htmlhttp://googlechinablog.com/2006/04/blog-post_10.htmlhttp://googlechinablog.com/2006/04/4.htmlhtt原创 2006-04-29 16:47:00 · 5023 阅读 · 3 评论 -
软件人月0
去年9月份开始一直到现在都在参与搜索引擎核心的研发工作,除了自然语言处理、算法以及信息检索上的反思之外,在软件工程以及项目管理上开始有了一些感触,于是前一段时间便疯狂的翻看《人月神话》那本书——上大学的时候只看得懂它的第一章:)。趁当时项目中间阶段总结的时候,也曾回忆整个项目研发过程,结合T MM-M这本书,记下了感受最深的几点,本想着形成一篇完整的文章的,不过现在看时间不允许了,就散置原创 2006-05-25 11:39:00 · 2004 阅读 · 3 评论 -
search花絮之文本字符串搜索结果的排序
最近在研究不考虑语义关系的文本字符串相似度的计算算法。在对文本内容编制索引后,如何对检索出来的结果进行排序,对于“搜索”的用户体验来讲是至关重要的,这个问题也就是归结为任意两个字符串的相似度计算问题。这其中要考虑的因素,除了TF/IDF之外,还有就是词语之间的距离因素和顺序因素:这是不考虑语义关系的情况下能直接从文本中计算迩来的。从人的直观来讲,检索结果串的距离和顺序因素越和请求串一致,原创 2006-07-11 14:58:00 · 2585 阅读 · 0 评论 -
search花絮之索引压缩
搜索引擎的索引一般都是倒排数据。在海量数据中,索引本身的规模也是很可观的。例如对于一种比较复杂的索引数据,其保存了词语的文档标志、词频和位置序列,在30万规模的全文中,有些词语的索引数据达到100M级别。例如“汽车”在某篇文本中的信息为: 文本号 = 332权值 = 0.001456 - 位置0 - { 段号= 0, 句号= 0, 词号= 15 } - 位原创 2006-08-01 15:28:00 · 1915 阅读 · 2 评论 -
关于文本相似度计算开发包的构想
最近有一个想法,想用python实现一个小型开发包,以方便的实现并测试各种文本相似度计算算法,输入之一是一个精心建立的小型测试文本语料库,之二则是检索请求文本,输出则可以依据配置的相似度计算方法输出排好序的测试文本序列。因为相似度计算并排序是搜索引擎的核心之一,而对于一个成熟的搜索体系去实验各种想法是很不方便的,所以很想有这样一个工具。大体上可以分为这样几个模块: 统一数据原创 2006-08-12 11:51:00 · 3423 阅读 · 2 评论 -
第二届计算语言学讲习班的感触
刚从沈阳回来,参加了第二届计算语言学讲习班,感觉收获还是蛮大的,虽然沈阳之行太匆匆,哪里都没来得及去。这次讲习班的课程主要集中在三个方向,一是微软亚洲研究院的李航博士的统计机器学习,二是北大中文系的詹卫东博士的结合计算的汉语研究,三是计算所几位博士的搜索引擎原理介绍与利用开源工具的搜索引擎搭建。李航博士主要讲了统计学习的基本概念和原理,包括有监督学习和无监督学习,并把学习的概念定义原创 2006-08-22 17:08:00 · 2423 阅读 · 0 评论 -
2006个人小结
一,工作任务与完成情况2006年是比较紧张的一年,这一年中主要的工作为专利搜索引擎内核部分的研发与测试、移植工作。包括:(1) 新研发的算法模块有占位符索引与匹配模块、主题词摘要与检索模块、考虑位置信息的文本相似度计算算法、数据压缩算法(算法设计)、搜索结果反色模块(设计)、以及一些新的智能体要素提取器的开发工作等。(2) 重构的算法模块有短语处理原创 2007-01-10 13:55:00 · 2389 阅读 · 1 评论 -
HNC与语言学研究学术研讨会(第三届)简单记录(4)
2005年的最后一天,把这篇简单记录补上。内容主要是关于北京邮电大学钟义信教授的全息自然语言理解与机器认知研究和上海交通大学陆汝占教授的对于搜索引擎的思考两篇主题报告。这两篇报告本来是要在开幕式上做的,因时间关系被推到了闭幕式上。 钟教授原来是做信息论的,由于申氏信息论只研究信息传输过程中噪声环境的处理,并不涉及信息的理解,所以钟先生主张从语法、语义和语用三个角度来考察信息,也原创 2005-12-31 14:08:00 · 1881 阅读 · 0 评论 -
HNC与语言学研究学术研讨会(第三届)简单记录(3)
在语言层面上,关于短语处理的文章很少。自己去年一年都在做这方面的工作,可因为忙着用短语处理的结果参加现在单位搜索引擎的研发,竟然一直没有能够对短语处理作一个总结,心里有点遗憾。这次只是匆忙的整理了短语处理中歧义分析的一个点——形容词与两名词组合搭配的歧义结构来参加这次会议(不过从合作者唐和晋老师那里学到不少东西)。 相比而言,关于处理句子的报告却不少。从华中师范大学的报告来看,原创 2005-12-23 17:14:00 · 1437 阅读 · 1 评论 -
聊天机器人ELIZA
(1) 在《自然语言理解》这本书的绪论中曾分析了聊天机器人ELIZA的设计机理,表明这是一种语言变换的技巧,而不是真正的“自然语言理解”。午间休息时检索了一下,找到了一个它的连接: http://www-ai.ijs.si/eliza-cgi-bin/eliza_script它并不如书中所举的例子那样的“聪明”;也许因为这是第一个聊天机器人,以及它并没有真正采取“自然原创 2005-10-30 12:37:00 · 16510 阅读 · 7 评论 -
语言和语义(一,什么是语言)
语言,是人类社会中极为复杂的一个现象或工具。目前为止,除人类日常生活所使用的自然语言(如汉语,英语,德语等)之外,各种人工语言(如计算机语言)也是常见的例子。虽然是生活中的一部分,但语言对于我们来讲仍然是神秘的;上帝在巴别塔所设的障碍,至今仍然存在。作为一个信息行业的科学工作者,我们的确又无法在这个障碍面前止步。故本文也给出一些初步的探讨,谈一些对语言与概念不成熟的理解。语言,宽泛的讲,可原创 2005-11-04 16:22:00 · 4617 阅读 · 2 评论 -
构词法与造词法
汉语的“词”没有一个严格的定义,这给机器处理(分词)带来很大的麻烦。但若考察“词”的语义特征,以及词语的构成特点,对处理是有一些很好的启示的。 汉语的“词”没有一个严格的定义,这给机器处理(分词)带来很大的麻烦。但若考察“词”的语义特征,以及词语的构成特点,对处理是有一些很好的启示的。前段时间的检索项目中,做短语结构分析时遇到一个科技新词识别的问题,整理了如下的一段材料,留作后用。词原创 2005-11-15 16:30:00 · 10196 阅读 · 1 评论 -
意义理论(theory of meaning)
意义理论(theory of meaning)是语言哲学的中心问题之一,字面上它与语义学(semantics)相似,但习惯上把对意义的哲学研究称作意义理论,把对意义的语言学研究称作语义学。 意义的指称论 主张一个语词的意义就是这个语词所指的对象。 *语词意义问题上心灵的普遍错觉。 意义的观念论(意象论)和联想论 语词的意义是它所代表的观念或意象。联想论认为一个原创 2005-11-16 20:08:00 · 4763 阅读 · 0 评论 -
搜索的未来(4)
对几个关键字的评价 搜索意图的表达、知识的处理(组织管理与计算)、无处不在和无所不含,我觉得这是搜索的未来继续发展的四个基本点.本质上讲,这四点的核心根源,也在于引言中所阐述的信息膨胀与信息有效利用的矛盾,因为这一矛盾的深化,所以搜索对我们来讲才显得更为紧迫.在笔者开始动笔之前查阅相关话题的时候,发现大家在谈搜索的未来的时候,常提到如下几个关键词,并认为这是未来搜索的核心特征:桌面搜索个性化原创 2005-11-20 17:19:00 · 1289 阅读 · 0 评论 -
搜索的未来(1)
搜索的未来引子一直以来,想写这篇文章,谈谈搜索引擎的发展,做一下展望;当然,并不仅仅是因为现在搜索引擎火热,毕竟一年多没有正经写过文章了,自从进入NLP行业工作以来,便明白自己懂的太少,应该多学多做,但这两个月里新接触的项目就是搜索引擎,做了一年多的短语处理研究,现在开始接触应用,加班之余心里便也有了些想法.文章不写,但旧习尚在,初步的酝酿一下,然后去google和baidu一搜,才发现"搜索的未原创 2005-11-19 18:24:00 · 1375 阅读 · 0 评论 -
搜索的未来(3)
无处不在除了对理解搜索意图方面的改善和对自身知识组织与管理能力的提高之外,未来的搜索引擎还有两个方向会继续发展,其一就是无处不在,也就是针对分布式计算来说的.记得以前讨论搜索的未来这个话题时,我曾经提出,从技术上讲,搜索引擎要继续发展,需要从两个学科上进行提高与突破,一是智能性,二是分布式计算.我们前面提到的两点,都是在智能性上展开的思考,那么在本小节上,我们需要考虑分布式方向.但这与笔者的工作内原创 2005-11-19 20:55:00 · 1040 阅读 · 0 评论 -
搜索的未来(2)
知识的组织与管理对于搜索引擎,处理人类的搜索请求只是其第一步.另一个问题是,既然搜索引擎是为了解决信息量巨大(或无序)与人类利用信息的需求之间的矛盾而诞生的,那么如何组织与管理这数量巨大(或无序)的信息?自从计算机与互连网诞生以来,这个问题尤其显的突出.现在人类社会中每天都有大量的信息产生,并在各种媒介上流通,这些信息都可以有其数字形式,事实上现在信息数字化也是一个趋势.但是,即使现在字符流已经可原创 2005-11-19 19:46:00 · 1223 阅读 · 1 评论 -
令人头疼的科技短语处理
现在的搜索项目中使用了以前短语处理的研究成果,以之来分析标题并进行索引与搜索.但由于处理对象中包含大量科技新词,且部分短语也不太规范,使得测试过程中发现了较多问题.其中最头疼的是,100万条短语的测试语料中,有如下语料使得短语分析软件陷入死锁.呜呼悲惨~如何修正算法? 院里的分词算法太简单,没有未登录词与新词识别的模块,这对短语处理软件造成的压力实在太大.由一个充电电池和一个原创 2005-12-05 15:37:00 · 2759 阅读 · 2 评论 -
HNC与语言学研究学术研讨会(第三届)简单记录(1)
2005年12月21-22日,HNC与语言学研究学术研讨会(第三届)在北京师范大学召开。这次会议由三家单位共同发起举办:中科院声学所、北京师范大学和大正语言知识处理研究院。笔者有幸参加这次会议,连夜在此做一简单记录;当然,关注点是笔者所认同的、感兴趣的报告精简内容。开幕式发言与报告 北京大学陆俭明教授 这是笔者所喜欢的第一个发言,以前只是闻其名,现在才看到陆先生原来原创 2005-12-22 20:03:00 · 1544 阅读 · 0 评论 -
HNC与语言学研究学术研讨会(第三届)简单记录(2)
21号下午开始分为两个会场,由会议各个代表作报告。我有选择的听了一些,并没有记笔记。作为计算机出身的人员,一方面想多听学语言学的人的不同声音,另一方面又难以接受仅仅谈语言现象、未与机器处理相结合的报告。另外,做语音处理的报告也听得不太明白。 从语言的层次来讲,在词一级做处理的关注了两个报告。 北京邮电大学刘建毅作了报告《基于统计分类器的新词识别研究》。因为工作中也遇原创 2005-12-23 13:19:00 · 1586 阅读 · 0 评论 -
传播力模型的初步探讨
做了一个关于"传播力"的调研,下面是一部分的内容(关于整合力等子模型就不贴出了);主要有些问题,大家感兴趣的可以和偶一起讨论.我觉得这个概念还是非常有意思的,不妨再把最后的小结说明贴一下:综合三、四、五的讨论,我们基本上可以得到一个传播力模型的框架。传播力描述的不是出版物的内容,而是它的传播能力;在某种意义上而言,它描述的是一个信息的存在在其环境中的重要性。可以说,内容计算与传播力原创 2007-01-18 11:00:00 · 3617 阅读 · 0 评论
分享