rockychan1206-优快云博客

计算机故障速查手册.pdf

计算机故障速查手册.pdf 计算机故障速查手册.pdf

2009-06-17

基于文本的Web图片搜索引擎的研究-北京大学硕士研究生学位论文

硕士研究生学位论文题目：基于文本的Web图片搜索引擎的研究姓名：王鹏云学号： 10108093 系别：计算机科学技术系专业：计算机应用研究方向：网络与通讯导师：宋再生教授二零零四年五月

2009-07-08

搜索引擎的日志分析：方法、技术和应用_单松巍_北京大学硕士论文

论文摘要本文首先介绍了Internet及WWW的迅速发展状况，分析了Internet信息资源的特点。在介绍已有的搜索引擎之后，分析了这些搜索引擎的特点。随后，本文对“天网”搜索引擎系统进行了介绍，给出了该系统的总体结构、技术特征，并分析了该系统的性能。然后，文章介绍了“天网”系统中的信息统计子系统。信息统计子系统是为系统管理人员评估系统性能、维护系统效率、更好满足用户的查询要求而设计实现的。本文给出了信息统计子系统的总体结构，并详细介绍了该子系统的两个重要部分，数据库信息处理和日志文件信息处理的设计目标和实现算法，并介绍了如何让机器自动学习新词。

2009-07-08

A COMMENTARY ON THE SIXTH EDITION UNIX OPERATING SYSTEM

A COMMENTARY ON THE SIXTH EDITION UNIX OPERATING SYSTEM J. Lions. Department of Computer Science The University of New South Wales

2009-10-30

网页链接分析算法的研究进展

介绍了网页链接分析算法的研究的方法和进展情况

2009-07-08

文本挖掘 – 信息提取 ppt

Text Mining (1) 文本本来是给人读的，不是计算机大多数信息以文本形式存储 100 times as much online text as online DBs HTML网页是带有结构标记的文本（带来机会和挑战）数据挖掘操作的是数据表 (i.e. numbers, fixed fields, adherence to data models).

2009-07-08

中英文发现系统的转接层子系统、索引子系统的设计与实现_雷鸣_北京大学硕士论文

中国于1994年进入INTERNET，之后INTERNET在中国得到了迅速的发展，中文的WWW信息也迅速增加。这使得在搜索中文信息时也需要一定的搜索工具。由于世界上现有的搜索引擎大部分都是针对英文设计的，它们或支持中文的能力很差，或根本不支持中文。个别支持中文搜索的搜索引擎，它们的数据库中所包含的中文信息的数量十分小，搜索的结果非常不理想。对于日益增长的中国INTERNET来说，实现一个具有大量中文信息数据库，能够良好支持中文检索的搜索引擎已是一种迫切的需求。本论文所描述的系统即是作者参与设计和实现的一个支持中文的搜索引擎。它即支持对中文，英文的简单检索，又支持逻辑运算，模糊匹配等高级检索。它通过对中文的分词，实现了对在中文词汇一级检索的支持；通过对中文，英文的编码，实现了对中文，英文系统核心实现的一致化；通过两级索引机制和索引项的特殊设计，实现了检索的快速命中。论文首先介绍了系统设计和实现的一些背景资料，介绍了WWW的发展于现状，世界主要搜索引擎及其比较，中文的特点与搜索引擎对中文的支持。之后，描述了系统的整体设计，详细介绍了转接层子系统和索引数据库子系统的设计。

2009-07-08

一个大规模、高性能的搜索引擎系统—北京大学硕士研究生学位论文

本文首先回顾了WWW的起源和发展。面对极其大量的信息，人们通常依靠搜索引擎来为他们在WWW上进行导航，这给搜索引擎技术带来了巨大的挑战。自1994年问世以来，搜索引擎的发展经历了四代。我们对每一代搜索引擎及其特色进行了简要的陈述。搜索引擎是一个集多种技术于一体的综合性系统。在本文的第二章，我们就搜索引擎涉及到的某些核心背景技术，如搜索技术、IR技术、超文本链分析技术、用户行为分析技术，进行了讨论，并说明了这些技术对搜索引擎发展的影响和作用。 “天网”是国家“九五”攻关项目中的一个子专题。在借鉴和参考大量国内外相关研究的同时，根据中国WWW的特点，我们设计了一个大规模、高性能的搜索引擎系统。在第三章，我们根据WWW的特点和搜索引擎的功能，根据图论、集合论及关系模型构建了“天网”搜索引擎的理论模型，并且以理论模型为出发点，设计了整个系统的体系结构。在文章的主体部分，我们以搜索引擎中数据流程为主线，描述了搜索引擎的几个子系统：搜集子系统、分析子系统、索引子系统、检索子系统以及用户界面和日志挖掘子系统。在这些章节中，特别强调“天网”所采用的相关技术和关键算法：分布式并行搜集技术、启发式搜集策略、镜像消除技术、中英文特征项提取技术、高效索引技术、词典更新技术、超链分析技术、快速检索技术、相关度评价策略、Hash排序算法、Cache策略、中文词汇学习技术和用户行为分析技术。最后，我们简要的介绍了系统的实现和性能，并对“天网”系统提出了一些今后的发展设想。

2009-07-08

在基本IR模型之上的一些技术

VSM回顾查询扩展（query expansion） Generalized Vector Space Model (GVSM) 最大边界相关法（Maximal Marginal Relevance） Summarization as Passage Retrieval（基于片段提取的文献综述）

2009-07-08

海量Web信息搜集系统优化设计_谢正茂_北京大学硕士论文

论文摘要本文首先由WWW的起源和发展导出搜索引擎技术的出现和发展。北大天网是这类技术在中国的最早的成功产品之一，本文将大体介绍其体系结构和技术特点。搜集端（crawler）是天网的主要模块之一，它的搜索速度、获取网页质量是评价搜索引擎好坏的主要指标，是检索端的工作的基石。如何更快，更好的抓取网页是本人毕业设计的工作目标。在介绍完搜集端现有的体系结构之后，本文从搜索导向、相似网页、相关度权值给定三个方面阐述它的优化策略，作为本文的重点。最后，本文试图指出现有系统的处理能力极限和瓶颈，并在此基础上作新的体系结构的探讨。

2009-07-08

Web数据模型以及获取、存储方法研究_北京大学硕士论文

Web上信息就像一条河流，从我们身边不停流过。已经有很多人认识到这些信息的价值，从而展开了对Web信息多方面的研究。本文阐述的内容就是基于这些研究，并希望能够对他人的相关工作带来方便。文章围绕的中心是Web数据的高效获取与存储，为此也专门研究了信息在Web上大量重复出现的现象和原因。本文的主要内容包括： (1) 有关Web信息状况的一些统计数据，结合一些Web的基本概念，这些数据让读者对Web宏观上能有一些具体的认识。这是理解本文其他部分的基础， (2) 提出了同义主机的概念。在Web上有很多不同的域名代表着相同的主机，负责获取网页的系统如果不知道这种信息，就会重复的获取这台主机上的网页。这样导致网络资源和机器资源的浪费，并且对相应的Web服务器也造成额外负担，本文通过分析IP地址与域名的关系，总结出哪些主机名有同义关系，从而避免了网页的重复获取；另外，对于消除Web上存在的重复或相似的网页，本文提出了多种算法，一一进行评测，并选择最好的用于实际的网页消重中。 (3) 本文还具体的讨论了Web数据获取系统的设计目标，并给出了计算系统效率的方法。然后参照这些设计目标，比较了两种具体的收集系统结构。 (4) 同时，论文还基于Web InfoMall的目标，给出了一种海量网页存储系统的设计方案以及实现的种种考虑。

2009-07-08

nes音乐提取nsf工具包，转换wav MP3.rar

注意事项：程序右键属性里面的兼容性要设置成 windows xp以前的版本才可以工作正常 windows 2000 和windows 98都可以

2020-08-20

天网搜索引擎的数据结构

文章详细讲述了北京大学天网搜索引擎的数据结构

2009-06-17

一种可扩展的高效链接提取模型的实现和验证_苏杭_北京大学学士论文

随着WWW(World Wide Web)越来越广泛的发展与应用，搜索引擎已经成为人们从中查找信息的重要工具；在搜索引擎的系统实现中，如何通过链接提取发现更多更广的Web资源又是影响搜索引擎性能的重要因素之一。本文总结了设计链接提取模块所要求的“容错性”、“正确性”、“全面性”、“高效性”和“可扩展性”等五个目标，并从这些角度去分析传统的链接提取方法的不足，并作为改进，提出了一种新的设计思路。本文将链接提取的过程划分为信息提取，信息加工，信息分析以及信息储存四个过程来进行研究。信息的获取通过HTML文法分析方法从文档中得到初始URI(Uniform Resource Indetifier)数据；信息加工阶段通过运用URI解析算法对初始数据进行精练；然后在信息分析过程中进一步地筛选与过滤；最后将结果存储在一个双链表结构中。基于上述方法，本文实现了一个新的链接提取模型，并将该模型运用于北京大学天网WWW搜索引擎；在获得足够的实验数据之后，全面的比较了这种新的链接提取模式与传统方法在各项指标上的优劣。结果表明该模型有明显的优势。

2009-07-08

《点集拓扑学》 pdf 熊金城

《点集拓扑学》 pdf 熊金城著《点集拓扑学》 pdf 熊金城著

2009-10-07

搜索引擎的索引技术：INDEX TECHNIQUES

索引技术：INDEX TECHNIQUES 马秀娟软件工程研究所 2009.04.21 课程大纲谷歌的背后是啥? 搜索引擎示意 DOCUMENT COLLECTION USER INFORMATION NEED HOW TO DO IT? DOCUMENT REPRESENTATION Bag of words model Document-term incidence matrix（关联矩阵）

2009-07-08

拓扑学奇趣.pdf В.Г.巴尔佳斯基 В.А.叶弗来莫维契著裘光明译

[General Information] 书名=拓扑学奇趣作者=[俄]В.Г.巴尔佳斯基 В.А.叶弗来莫维契著裘光明译责任编辑: 页数=182 SS号=10340521 出版日期=

2009-10-07

树的概念与遍历算法 ppt

树的概念与遍历算法 ppt-很好的幻灯片

2009-07-08

王爽老师《汇编语言》教材.pdf

只要是看过王爽老师的这本《汇编语言》教材后的人，如果他还说这是本垃圾书的话，那我很难相信他是个正常人[如果不是记不住英文字母的第二个字母是什么的话，我一定会用最粗俗的言语、最流行的骂法来形容这类人]。事实证明，此书确实是好评如潮。如果你认为本人是为此书做广告或对本人的说法仍持怀疑态度，那你大可去网上搜索关于此书的资料，从而让事实来说服你自己。

2009-09-26

严蔚敏：数据结构题集（C语言版）.pdf

2009-10-07

面向主题的中文搜索引擎的设计与实现_陈静_北京大学硕士论文

WWW网络的迅猛增长使得搜索引擎面临了前所未有的挑战，搜索引擎如何适应这种规模的急剧膨胀，成为一个备受关注的问题。面向主题搜索引擎可以有选择性的抓取与主题相关的网页。选取的对象是一个或一组事先预定义的主题，其特征由样本网页标志，而不是关键词。一般性的搜索引擎总是抓取尽量多的网页以满足所有可能的查询请求；而主题搜索被设计为只抓取与选定主题相关的网页。这不仅能够大大减少系统对硬件和网络资源的需求，而且还有助于提高抓取的准确率和搜索结果的更新速度。本文首先对比通用搜索引擎与主题搜索引擎的区别，总结主题搜索引擎的优点；然后介绍目前世界上主题搜索引擎技术的发展状况。接着，综述了面向主题中文搜索引擎的设计，详细介绍涉及该领域的三个核心技术：文档分类技术、中文处理技术和网页搜集预测技术。对于以上三种技术，我们在简述已知算法的基础上，都阐述了具体系统的实现方案。其中中文切词问题作为工作的重点，在文章中有比较详尽的介绍，包括中文处理的背景知识，中文切词软件的基本原理和中文切词词典的改进。

2009-07-08

正则表达式之道（A Tao of Regular Expressions）

正则表达式之道（A Tao of Regular Expressions）.

2009-06-17

C语言程序设计之《南开一百题无错版》

全国计算机等级考试三级C语言程序设计上机考试习题集（2004年版）南开100题【终极无错2.0版】 2004年11月11日修订者：李蓝

2009-09-26

英文版Practical.programing.c.pdf

2009-10-07

网络编程概述及ASP与数据库设计幻灯片

网络编程概述及ASP与数据库设计幻灯片ppt格式很好，不看后悔

2009-07-08

文档自动分类技术及其在搜索引擎中应用的研究_北京大学硕士论文

本文首先介绍了Internet的发展状况，指出Internet是一个庞大、杂乱、瞬息万变的信息源泉，仅仅依靠网页上的超文本链用户是无法方便、快捷地找到自己所需的信息的，提供WWW信息导航服务的搜索引擎是解决这个问题的一个途径。在介绍了传统的Spider式搜索引擎和基于人工分类的目录式搜索引擎的特点并对它们作了比较之后，指出支持分类目录是Spider式搜索引擎发展的趋势，而应用文档自动分类领域的研究对收集的网页自动分类，实现对分类目录的支持是一种可行的方法。然后，本文介绍了天网搜索引擎的现状，分析了它的特点，说明要进一步发展天网系统，应当采用文档自动分类技术支持分类目录。接下来，本文介绍了文档自动分类的意义和算法的分类，然后分别介绍了m-ary分类系统和Independent Binary分类系统常用的算法和各个算法的特点，接着介绍了从m-ary分类系统转换到Binary Independent分类系统常用的三种算法以及这两种分类系统的性能评价指标，然后分析了特征项选取对分类系统的影响，介绍了常用的五种特征项选取的方法。结合现有的天网搜索引擎，本文提出了天网系统支持分类目录的设计方案，详细介绍了自动分类系统的实现，说明了分类系统选用的分类算法的是KNN算法，选用的评价特征项重要性的指标是CHI统计量，选用的转换算法是Scut算法，然后讨论了自动分类系统在实现过程中遇到的问题以及解决的办法：1 使用两个文件描述分类目录，用Begin——End结构表示类之间的层次结构；2 通过限制文档向量最大分量的值显著地提高了系统分类的性能指标；3 使用稀疏矩阵在程序中表示文档向量，极大地缩短了分类响应时间，节省了占用的内存空间。在说明了分类系统使用的分类目录、训练集和测试集之后，本文给出了系统的测试数据。最后，本文详细介绍了将自动分类系统集成在现有的天网系统中的方法，讨论了对天网系统各个子系统的改造。

2009-07-08

4U.M2TS.Converter.rar

转换sony高清MTS格式到avi，mpeg,wmv等等等等……的软件

2009-07-08

rockychan1206的专栏

空空如也

计算机故障速查手册.pdf

基于文本的Web图片搜索引擎的研究-北京大学硕士研究生学位论文

搜索引擎的日志分析：方法、技术和应用_单松巍_北京大学硕士论文

A COMMENTARY ON THE SIXTH EDITION UNIX OPERATING SYSTEM

网页链接分析算法的研究进展

文本挖掘 – 信息提取 ppt

中英文发现系统的转接层子系统、索引子系统的设计与实现_雷鸣_北京大学硕士论文

一个大规模、高性能的搜索引擎系统—北京大学硕士研究生学位论文

在基本IR模型之上的一些技术

海量Web信息搜集系统优化设计_谢正茂_北京大学硕士论文

Web数据模型以及获取、存储方法研究_北京大学硕士论文

nes音乐提取nsf工具包，转换wav MP3.rar

天网搜索引擎的数据结构

一种可扩展的高效链接提取模型的实现和验证_苏杭_北京大学学士论文

《点集拓扑学》 pdf 熊金城

搜索引擎的索引技术：INDEX TECHNIQUES

拓扑学奇趣.pdf В.Г.巴尔佳斯基 В.А.叶弗来莫维契著裘光明译

树的概念与遍历算法 ppt

王爽老师《汇编语言》教材.pdf

严蔚敏：数据结构题集（C语言版）.pdf

面向主题的中文搜索引擎的设计与实现_陈静_北京大学硕士论文

正则表达式之道（A Tao of Regular Expressions）

C语言程序设计之《南开一百题无错版》

英文版Practical.programing.c.pdf

网络编程概述及ASP与数据库设计幻灯片

文档自动分类技术及其在搜索引擎中应用的研究_北京大学硕士论文

4U.M2TS.Converter.rar

空空如也

空空如也

计算机故障速查手册.pdf

基于文本的Web图片搜索引擎的研究-北京大学硕士研究生学位论文

搜索引擎的日志分析：方法、技术和应用_单松巍_北京大学硕士论文

A COMMENTARY ON THE SIXTH EDITION UNIX OPERATING SYSTEM

网页链接分析算法的研究进展

文本挖掘 – 信息提取 ppt

中英文发现系统的转接层子系统、索引子系统的设计与实现_雷鸣_北京大学硕士论文

一个大规模、高性能的搜索引擎系统—北京大学硕士研究生学位论文

在基本IR模型之上的一些技术

海量Web信息搜集系统优化设计_谢正茂_北京大学硕士论文

Web数据模型以及获取、存储方法研究_北京大学硕士论文

nes音乐提取nsf工具包，转换wav MP3.rar

天网搜索引擎的数据结构

一种可扩展的高效链接提取模型的实现和验证_苏杭_北京大学学士论文

《点集拓扑学》 pdf 熊金城

搜索引擎的索引技术：INDEX TECHNIQUES

拓扑学奇趣.pdf В.Г.巴尔佳斯基 В.А.叶弗来莫维契著 裘光明译

树的概念 与 遍历算法 ppt

王爽老师《汇编语言》教材.pdf

严蔚敏：数据结构题集（C语言版）.pdf

面向主题的中文搜索引擎的设计与实现_陈静_北京大学硕士论文

正则表达式之道（A Tao of Regular Expressions）

C语言程序设计之《南开一百题无错版》

英文版Practical.programing.c.pdf

网络编程概述及ASP与数据库设计幻灯片

文档自动分类技术及其在搜索引擎中应用的研究_北京大学硕士论文

4U.M2TS.Converter.rar

空空如也

拓扑学奇趣.pdf В.Г.巴尔佳斯基 В.А.叶弗来莫维契著裘光明译

树的概念与遍历算法 ppt