博客检索的关键技术研究-计算机科学与技术专业论文
Classified Index: TP391.3 U.D.C.: 681.37
Dissertation for the Master Degree in Engineering
RESEARCH ON KEY TECHNOLOGIES OF BLOG SEARCH
Candidate:
Li Bo
Supervisor:
Prof. Wang Xiaolong
Academic Degree Applied for:
Master of Engineering
Specialty:
Computer Science and Technology
Affiliation:
School of Computer Science and Technology
Date of Defence:
June, 2009
Degree-Conferring-Institution:
Harbin Institute of Technology
哈尔滨工业大学工学硕士学位论文
哈尔滨工业大学工学硕士学位论文
摘要
随着互联网迈向 Web 2.0 时代,博客以极快的速度融入到社会生活中,成 为互联网的基础服务之一。博客迅猛发展,博客数量爆炸增长,在为人们带来 丰富信息的同时也带来了难以寻找有用信息的烦恼,使博客检索和分类技术的 研究价值日渐凸显。本文正是在这种背景下,对博客检索的关键技术展开了研 究,主要研究内容包括以下几个方面。
第一,本文在归纳分析经典搜索引擎架构模型的基础上,结合博客的特点 设计了适合博客检索需求的搜索引擎系统架构。
第二,本文讨论包括网页搜集、网页信息抽取、中文分词、索引、检索和 用户接口在内的一系列搜索引擎系统主要研究内容,并根据博客特点加以改进、 优化。例如:使用博客 URL 过滤规则对非博客网页和非博客文章网页过滤;利 用博客域名多使用虚拟主机技术的特点改进博客域名解析和 DNS 缓存;根据博 客网页结构特点实现高效、准确的博客正文、标题和作者等信息的抽取;针对 博客搜索的定位优化中文分词词典,加入计算机、软件、网络、电子术语等 IT 领域专业词典,还针对博客语言特点增加网络流行新词词典,提高检索的准确 率;修改开源全文检索工具包 cLucene,使其更好的支持中文处理,完成倒排索 引和检索工作。
第三,本文提出利用博客标签和正文信息融合的博客文本分类算法。由于 博客文本的内容、风格缺乏规范性,加上在领域内分类,分类粒度小,为自动 文本分类增加了难度。博客作者通常为文章指定一个或多个标签,标签在很大 程度上概括了文章涉及的内容,对博客文本分类有重要的作用。本文根据博客 文本标签这一特点,提出了两种标签信息和正文信息融合的博客文本分类算法。 实验结果表明,标签信息有效提高了博客文本分类的效果。
关键词搜索引擎;文本分类;博客;博客搜索
I -
Abstract
As the Internet moves into Web 2.0 era, blog is integrating into the social life at a very high speed and becoming one of the Internet-based infrastructure services. The rapid development of the blog service brings not only a wealth of information resources but also the difficulty to find useful information. Blog search and classification are showing their great research value. In such a context, this paper presents the research on key technologies of blog search engine.
Firstly, this paper analyses the classic model of the search engine and designs the system architecture of blog search engine.
Secondly, this paper discusses a series of studies on search engine system, and improves them according to the characteristics of blog, including web pages collection, web page infor