博客与计算机相关的内容无法进行查看,博客检索的关键技术研究-计算机科学与技术专业论文.docx...

博客检索的关键技术研究-计算机科学与技术专业论文

Classified Index: TP391.3 U.D.C.: 681.37

Dissertation for the Master Degree in Engineering

RESEARCH ON KEY TECHNOLOGIES OF BLOG SEARCH

Candidate:

Li Bo

Supervisor:

Prof. Wang Xiaolong

Academic Degree Applied for:

Master of Engineering

Specialty:

Computer Science and Technology

Affiliation:

School of Computer Science and Technology

Date of Defence:

June, 2009

Degree-Conferring-Institution:

Harbin Institute of Technology

哈尔滨工业大学工学硕士学位论文

哈尔滨工业大学工学硕士学位论文

摘要

随着互联网迈向 Web 2.0 时代,博客以极快的速度融入到社会生活中,成 为互联网的基础服务之一。博客迅猛发展,博客数量爆炸增长,在为人们带来 丰富信息的同时也带来了难以寻找有用信息的烦恼,使博客检索和分类技术的 研究价值日渐凸显。本文正是在这种背景下,对博客检索的关键技术展开了研 究,主要研究内容包括以下几个方面。

第一,本文在归纳分析经典搜索引擎架构模型的基础上,结合博客的特点 设计了适合博客检索需求的搜索引擎系统架构。

第二,本文讨论包括网页搜集、网页信息抽取、中文分词、索引、检索和 用户接口在内的一系列搜索引擎系统主要研究内容,并根据博客特点加以改进、 优化。例如:使用博客 URL 过滤规则对非博客网页和非博客文章网页过滤;利 用博客域名多使用虚拟主机技术的特点改进博客域名解析和 DNS 缓存;根据博 客网页结构特点实现高效、准确的博客正文、标题和作者等信息的抽取;针对 博客搜索的定位优化中文分词词典,加入计算机、软件、网络、电子术语等 IT 领域专业词典,还针对博客语言特点增加网络流行新词词典,提高检索的准确 率;修改开源全文检索工具包 cLucene,使其更好的支持中文处理,完成倒排索 引和检索工作。

第三,本文提出利用博客标签和正文信息融合的博客文本分类算法。由于 博客文本的内容、风格缺乏规范性,加上在领域内分类,分类粒度小,为自动 文本分类增加了难度。博客作者通常为文章指定一个或多个标签,标签在很大 程度上概括了文章涉及的内容,对博客文本分类有重要的作用。本文根据博客 文本标签这一特点,提出了两种标签信息和正文信息融合的博客文本分类算法。 实验结果表明,标签信息有效提高了博客文本分类的效果。

关键词搜索引擎;文本分类;博客;博客搜索

I -

Abstract

As the Internet moves into Web 2.0 era, blog is integrating into the social life at a very high speed and becoming one of the Internet-based infrastructure services. The rapid development of the blog service brings not only a wealth of information resources but also the difficulty to find useful information. Blog search and classification are showing their great research value. In such a context, this paper presents the research on key technologies of blog search engine.

Firstly, this paper analyses the classic model of the search engine and designs the system architecture of blog search engine.

Secondly, this paper discusses a series of studies on search engine system, and improves them according to the characteristics of blog, including web pages collection, web page infor

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值