
搜索引擎&自然语言处理
文章平均质量分 71
瞭望天空
人生苦短以苦为乐不求最好只求更好
展开
-
中文分词器的总结
0 —— Lucene & Nutch是一种神奇的东西,包含了语义分析,自然语言处理,中文分析,网络爬取,索引建立,html解析等,下面介绍几种常用的中文分词工具1 —— StandardAnalyzer标准分析器,能够根据空格、符号、数字、字母、E-mail地址、IP地址以及中文字符的分析处理分割原始的文本信息,还可以支持过滤词表,用来替代StopAnalyzer能够完成的过滤功能。原创 2015-02-23 12:07:00 · 3950 阅读 · 2 评论 -
大数据处理之道 (htmlparser获取数据<一>)
一:简介(1)HTML Parser是一个用于解析Html的Java的库,可采用线性或嵌套两种方式。主要用于网页的转换或提取,他有一些特性:过滤器filter,遍历器visitors,通常的标签tagName和易用的JavaBeans。它是一个快速,健壮,并严格测试过的组件。(2)个人理解:HTMLParser遍历了网页的内容以后,以树(森林)结构保存了结果,各个节点代表HTML中的标签和原创 2014-12-24 11:12:52 · 2724 阅读 · 5 评论 -
大数据处理之道 (htmlparser 过滤器<二>)
一:起因(1)最近用于任务需要一直在爬取网页HTML的内容,与类似于爬虫的HtmlParser接触的比较多,爬取无非就是过滤自己想要的信息,因此Filter是核心,当然String类中的matches(regex)函数和contains(str)函数也是非常有用的(2)经常和爬虫打交道就会分析各式各样的网站设计以及布局:用的设计的非常有规律,如QQ空间,微博信息等爬取非常简单(当时要想翻页原创 2014-12-25 16:58:45 · 2001 阅读 · 3 评论 -
Nutch & Lucene 之 搜索引擎文本分析
0搜索引擎文本分析 ——网络爬虫处理互联网信息,从数量上看比例较大的是静态网页和动态的HTML页面。但整个网络上散落的各种格式化文本文件也非常重要。这部门文件包括了各种文章、各种产品文档等,对用户有很大的帮助。1——非结构化文本概述互联网上和企业网内有很多专业的文档资料,尤其在检索一些专业资料时,往往会在出现网页文档的同时出现一些DOC PDF PPT等格式的文档。非结构化的文本通常具有一原创 2015-02-25 12:52:49 · 1509 阅读 · 3 评论 -
大数据之道 HMM系列
一:HMM解码问题(1)给定一个观察序列O=O1O2...OT,和模型μ=(A,B,π),如何快速有效地选择在一定意义下“最优”的状态序列Q=q1q2...qT,使该状态最好地解释观察序列。(2)最可能的隐藏状态序列(Finding most probable sequence of hidden states);对于一个特殊的隐马尔科夫模型(HMM)及一个相应的观察序列,我们常常希望能找原创 2015-01-16 11:36:37 · 1484 阅读 · 0 评论 -
大数据之道 HMM系列<二>(成长)
一:HMM解码问题(1)编程深处无非就是算法和结构,以及各种架构和版本的管理(如Git管理),因此作为程序员算法这一关是绕不过去的;(2)关于算法,个人比较崇尚的一本书是《算法导论》和ACM实战系类的算法培训;(3)对于自然语言处理领域或者部分机械学习领域的算法,HMM模型是非常经典的算法之一,非常适合初学者学习和研究;(4)HMM模型μ=(A,B,π),的状态是不可见原创 2015-01-19 10:45:33 · 1449 阅读 · 4 评论