- 博客(30)
- 收藏
- 关注
原创 HIT中文命名实体识别
概况介绍命名实体识别任务是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。在当今世界,随着计算机的普及以及互联网的迅猛发展,大量的信息以电子文档的形式呈现在人们面前。为了应对信息爆炸带来的严重挑战,人们迫切需要一些自动化的工具帮助他们在海量的信息源中迅速找到真正重要的信息。于是信息抽取研究应运而生。而命名实体识别研究是信息抽取中的重要组成部分,同时它还能应用于自动...
2012-04-26 20:38:43
399
原创 【zz】Java正则表达式入门
众所周知,在程序开发中,难免会遇到需要匹配、查找、替换、判断字符串的情况发生,而这些情况有时又比较复杂,如果用纯编码方式解决,往往会浪费程序员的时间及精力。因此,学习及使用正则表达式,便成了解决这一矛盾的主要手段。 大 家都知道,正则表达式是一种可以用于模式匹配和替换的规范,一个正则表达式就是由普通的字符(例如字符a到z)以及特殊字符(元字符)组成的文字模式,它 用以描述在查找文字主体时待匹配的一...
2012-04-26 08:27:38
165
原创 [zz]打造自己的分布式搜索引擎底层架构(非Lucene)
打造自己的分布式搜索引擎底层架构(非Lucene)大家知道,搜索引擎技术不仅仅是类似百度首页的应用,还可以衍生出数据分析工具,商务智能工具等许多有卖点的应用,甚至是社会化关系通道的发现。甚至这些非搜索引擎的搜索引擎产品才是最重要的,因为你不需要去做百度做的事情。所以,搜索引擎技术要了解原理,才可以扩展,离开Lucene也能做搜索引擎是非常重要的,利用这个积木,我们可以搭建房子和汽车。...
2012-04-24 22:29:23
135
原创 各种排序算法
C代码 #include <stdio.h> #define N 5 //从小到大 void bubbleSort(int p[]){ int i=0,j=0,min=0; for(i=0;i<N;i++) for(j=N-1;j>i;j--){ ...
2012-04-21 23:40:35
112
原创 [zz]微软面试题之64
64. 寻找丑数。 题目:我们把只包含因子2、3和5的数称作丑数(Ugly Number)。例如6、8都是丑数,但14不是,因为它包含因子7。习惯上我们把1当做是第一个丑数。 求按从小到大的顺序的第1500个丑数。 分析:这是一道在网络上广为流传的面试题,据说google曾经采用过这道题。 Java代码 package microsoft; ...
2012-04-20 09:02:42
191
原创 dom4j通过xpath查询xml
订阅获取DocumentSAXReader saxReader = new SAXReader();Document document = saxReader.read(FileUtil.getFileInputStream(fileName));查询ElementString xpath ="/composites/compos...
2012-04-16 12:41:19
97
原创 【zz】二叉树遍历及C语言实现
二叉树遍历及C语言实现已知中序和前序序列,或者已知中序和后序序列,都能够构造一棵二叉树。在本例中,本人用C语言写程序解答了下面两个算法题:(1)给出一棵二叉树的中序与后序遍历序列,求出它的先序遍历序列。(2)给出一棵二叉树的中序与先序遍历序列,求出它的后序遍历序列。知识点扼要回顾:所谓二叉树的遍历,是指按一定的顺序对二叉树中的每个结点均访问一次,且仅访问一。按照根结点访问位置...
2012-04-11 10:49:13
163
原创 VS2008 快捷键大全[转帖]
Ctrl+m+Crtr+o折叠所有大纲Ctrl+M+Crtr+P: 停止大纲显示Ctrl+K+Crtr+C: 注释选定内容Ctrl+K+Crtr+U: 取消选定注释内容Ctrl+J : 列出成员 智能感知Shift+Alt+Enter: 切换全屏编辑Ctrl+B,T / Ctrl+K,K: 切换书签开关Ctrl+B,N / Ctrl+K,N: 移动到下一书签 Ctrl+B,P: 移动到上...
2011-11-24 23:15:16
90
原创 【tomcat+nutch+jdk】“中文乱码”的原理和解决方法
【tomcat 乱码的解决】在 Nutch 的搜索框中输入中文,点击“搜索”按钮之后,可以看到搜索框中的关键字是乱码,搜索结果也为空。网上有很多文章都谈到了这个现象,这不是 Nutch 的问题,而是 Tomcat 没有对 uri 做编码造成的。【Java中文问题的由来】 Java 的内核和 class 文件是基于 unicode 的,这使 Java 程序具有良好的跨平台性,但也带来...
2011-11-15 16:17:33
133
原创 Googler
Google的要求:Google软件工程水平的评估核心主要包括:编码、算法开发、数据结构、设计模式以及分析思考能力等。你将见到几位来自Google不同团队的工程师,他们将会给你一个关于Google工程团队的综合介绍。面试人员将会询问一些你感兴趣职位涉及领域的相关问题,并要求你即时找到解决方案。对于运营和其他部门的面试,我们将对解决问题等各方面能力进行评估。请记住,问题回答的对错并不重要,我们更看重...
2011-10-21 11:47:46
181
原创 如何谋得Google的职位?
11年了,我终于想明白了:谋职的最好方法就是做那个岗位该做的工作,而不是讨论它。 今年是2010年,这种想法尚未成为主流。所以,我们将用实际例子说话:假设你的理想工作是Google的一个产品经理,做Analytics产品相关工作。 那你怎么从成千上万个候选人中脱颖而出,拿下整个Analytics团队都梦寐以求的唯一岗位呢? 答案就是:做产品经理该做的工作。 这是什么意...
2011-10-21 10:46:37
140
原创 Stay Hungry, Stay Foolish !!
在整个社会都在关注乔帮主的时候,我想在这里和大家分享一个真实的就在我们程序员身边的故事。和我在《如果你看不见你还能编吗?》一文里介绍的那些盲人程序员一样,同样是Stay Hungry, Stay Foolish。但我个人更认为我今天想要给大家讲述的这个故事对于我们这些普通人更有意义一些。我真心的希望大家认真看完这个“从刷厕所到程序员”故事后,我们能从中感悟到点什么。因为朋友的原因,我和...
2011-10-20 18:47:36
164
原创 (十一)特征选择方法之信息增益
前文提到过,除了开方检验(CHI)以外,信息增益(IG,Information Gain)也是很有效的特征选择方法。但凡是特征选择,总是在将特征的重要程度量化之后再进行选择,而如何量化特征的重要性,就成了各种方法间最大的不同。开方检验中使用特征与类别间的关联性来进行这个量化,关联性越强,特征得分越高,该特征越应该被保留。 在信息增益中,重要性的衡量标准就是看特征能够为分类系统带来多少...
2011-10-19 09:55:17
134
原创 (十)特征选择算法之开方检验
前文提到过,除了分类算法以外,为分类文本作处理的特征提取算法也对最终效果有巨大影响,而特征提取算法又分为特征选择和特征抽取两大类,其中特征选择算法有互信息,文档频率,信息增益,开方检验等等十数种,这次先介绍特征选择算法中效果比较好的开方检验方法。 大家应该还记得,开方检验其实是数理统计中一种常用的检验两个变量独立性的方法。(什么?你是文史类专业的学生,没有学过数理统计?那你做什么文本...
2011-10-18 09:41:57
153
原创 (九)文本分类问题的分类
开始之前首先说说分类体系。回忆一下,分类体系是指事先确定的类别的层次结构以及文档与这些类别间的关系。 其中包含着两方面的内容: 一,类别之间的关系。一般来说类别之间的关系都是可以表示成树形结构,这意味着一个类有多个子类,而一个子类唯一的属于一个父类。这种类别体系很常用,却并不代表它在现实世界中也是符合常识的,举个例子,“临床心理学”这个类别应该即属于“临床医学”的范畴,同时也属...
2011-10-18 09:41:47
271
原创 (七)相关概念总结
学习方法:使用样例(或称样本,训练集)来合成计算机程序的过程称为学习方法[22]。 监督学习:学习过程中使用的样例是由输入/输出对给出时,称为监督学习[22]。最典型的监督学习例子就是文本分类问题,训练集是一些已经明确分好了类别文档组成,文档就是输入,对应的类别就是输出。 非监督学习:学习过程中使用的样例不包含输入/输出对,学习的任务是理解数据产生的过程 [22]。典型的非监督...
2011-10-18 09:40:55
134
原创 (六)训练Part 3
SVM算法 支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中[10]。 支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度,Ac...
2011-10-18 09:38:36
140
原创 (五)训练Part 2
将样本数据成功转化为向量表示之后,计算机才算开始真正意义上的“学习”过程。 再重复一次,所谓样本,也叫训练数据,是由人工进行分类处理过的文档集合,计算机认为这些数据的分类是绝对正确的,可以信赖的(但某些方法也有针对训练数据可能有错误而应对的措施)。接下来的一步便是由计算机来观察这些训练数据的特点,来猜测一个可能的分类规则(这个分类规则也可以叫做分类器,在机器学习的理论著作中也叫做...
2011-10-17 11:16:58
140
原创 (四)训练Part 1 zz
训练,顾名思义,就是training(汗,这解释),简单的说就是让计算机从给定的一堆文档中自己学习分类的规则(如果学不对的话,还要,打屁屁?)。 开始训练之前,再多说几句关于VSM这种文档表示模型的话。 举个例子,假设说把我正在写的“文本分类入门”系列文章的第二篇抽出来当作一个需要分类的文本,则可以用如下的向量来表示这个文本,以便于计算机理解和处理。 w2=(文本,5,统...
2011-10-17 10:17:54
94
原创 机器学习中的相似性度量zz
在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。 本文的目的就是对常用的相似性度量作一个总结。本文目录:1. 欧氏距离2. 曼哈顿距离3. 切比雪夫距离4. 闵可夫斯基距离5. 标准化欧...
2011-10-17 10:01:01
118
原创 (三)统计学习方法zz
前文说到使用统计学习方法进行文本分类就是让计算机自己来观察由人提供的训练文档集,自己总结出用于判别文档类别的规则和依据。理想的结果当然是让计算机在理解文章内容的基础上进行这样的分类,然而遗憾的是,我们所说的“理解”往往指的是文章的语义甚至是语用信息,这一类信息极其复杂,抽象,而且存在上下文相关性,对这类信息如何在计算机中表示都是尚未解决的问题(往大里说,这是一个“知识表示”的问题,完全可以...
2011-10-17 09:59:28
85
原创 (二)文本分类的方法zz
文本分类问题与其它分类问题没有本质上的区别,其方法可以归结为根据待分类数据的某些特征来进行匹配,当然完全的匹配是不太可能的,因此必须(根据某种评价标准)选择最优的匹配结果,从而完成分类。 因此核心的问题便转化为用哪些特征表示一个文本才能保证有效和快速的分类(注意这两方面的需求往往是互相矛盾的)。因此自有文本分类系统的那天起,就一直是对特征的不同选择主导着方法派别的不同。 最早的...
2011-10-17 09:57:58
122
原创 (一)文本分类问题的定义zz
一个文本(以下基本不区分“文本”和“文档”两个词的含义)分类问题就是将一篇文档归入预先定义的几个类别中的一个或几个,而文本的自动分类则是使用计算机程序来实现这样的分类。通俗点说,就好比你拿一篇文章,问计算机这文章要说的究竟是体育,经济还是教育,计算机答不上就打它的屁屁(……)。 注意这个定义当中着重强调的两个事实。 第一,用于分类所需要的类别体系是预先确定的。例如新浪新闻的分类...
2011-10-15 20:38:32
282
原创 特征选择常用算法综述
1 综述(1) 什么是特征选择特征选择 ( Feature Selection )也称特征子集选择( Feature Subset Selection , FSS ) ,或属性选择( Attribute Selection ) ,是指从全部特征中选取一个特征子集,使构造出来的模型更好。 (2) 为什么要做特征选择 在机器学习的实际应用中,特征数量往往较多,其...
2011-10-14 23:59:26
170
原创 数学之美番外篇:平凡而又神奇的贝叶斯方法
转:http://mindhacks.cn/2008/09/21/the-magical-bayesian-method/ 概率论只不过是把常识用数学公式表达了出来。——拉普拉斯记得读本科的时候,最喜欢到城里的计算机书店里面去闲逛,一逛就是好几个小时;有一次,在书店看到一本书,名叫贝叶斯方法。当时数学系的课程还没有学到概率统计。我心想,一个方法能够专门写出一本书来,肯定很牛逼。后来...
2011-10-13 15:47:35
80
原创 Weka下使用LibSVM的一点心得
写这篇“Weka下使用LibSVM 的一点心得”本来并非有此想法,而是在使用Weka朴素贝叶斯分类器的时候,发现有一个LibSVM的选项。恰逢一个项目需要使用SVM分类器,所以就做了一下尝试。但是提示错误:“libsvm classes not in CLASSPATH”。在网上搜了一下,解决方法如下:首先,在http://www.cs.iastate.edu/~yasser/wlsvm...
2011-10-13 15:15:30
402
原创 Tomcat中运行nutch的结果
1、 复制nutch-1.2.war到到../tomcat7/webapps/下 2、 修改/webapps/nutch/WEB-INF/classes/nutch-site.xml :将<nutch-conf></nutch-conf>换成<nutch-conf><property> <name&...
2011-10-03 20:47:11
213
原创 ubuntu下nutch-1.2配置
1、下载nutch1.2到指定一个目录下,并打开eclipse新建一个java工程。并选择"Create project from existing source",指向nutch目录。 2、下一步操作,切换到"Libraries"选择"Add Class Folder..." 按钮,从列表中选择"conf",继续操作:切换到"Order and Export"找到"conf",把
2011-10-03 20:42:52
102
原创 在Ubuntu 10.10下安装JDK配置Eclipse及Tomcat
本文将详细介绍在Ubuntu 10.10下安装JDK配置Eclipse及Tomcat。JDK版本为jdk-6u23-linux-i586.bin、Tomcat的版本为apache-tomcat-7.0.5.tar.gz。AD: 51CTO编者按:我们曾经介绍过在《Ubuntu JDK安装配置详解》,本文将介绍如何配置最新的Ubuntu、JDK以及...
2011-10-01 09:28:12
117
原创 Ubuntu JDK安装配置详解
Ubuntu JDK安装配置的详细步骤:Ubuntu JDK安装配置1.下载jdk下载连接http://java.sun.com/javase/downloads/index.jsp选择jdk-6u14-linux-i586.bin下载,将jdk-6u14-linux-i586.bin放置于目录/home/liyouliang/developUbuntu JDK安装...
2011-10-01 09:26:09
66
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人