
搜索引擎
文章平均质量分 75
Virtual_Func
小风扇吹风好吵
展开
-
搜索引擎数据源爬取——python scrapy
我选取的是爬取百度知道的html 作为我的搜索源数据,目前先打算做网页标题的搜索,选用了 python 的 scrapy 库来对网页进行爬取,爬取网页的标题,url,以及html,用sqlist3来对爬取的数据源进行管理。爬取的过程是一个深度优先的过程,设定四个起始 url ,然后维护一个数据库,数据库中有两个表,一个 infoLib,其中存储了爬取的主要信息:标题,url ,html;另一个原创 2015-11-03 21:54:08 · 3995 阅读 · 0 评论 -
初次使用 Hadoop Streaming 的过程(遇到各种各样的问题)
写搜索引擎希望能尝试使用hadoop 来进行分布式查找结果,并顺便学学老早就想学的 hadoop。花了两个晚上的时间倒腾,总算跑出了第一个结果。。虽然很累,还是挺好的。下面陈列一下遇到的问题,希望对自己或者别人都能有些帮助。我自己用的是C++,在 win10 上用 vmware 装了 ubuntu 14.04 的虚拟机,然后装了 hadoop,没有使用 eclipse,因此选择学习的是 had原创 2015-11-19 23:54:57 · 1716 阅读 · 0 评论 -
hadoop datanode 打不开
hadoop datanode启动不起来转自:http://book.51cto.com/art/201110/298602.htm 如果大家在安装的时候遇到问题,或者按步骤安装完后却不能运行Hadoop,那么建议仔细查看日志信息,Hadoop记录了详尽的日志信息,日志文件保存在logs文件夹内。 无论是启动,还是以后会经常用到的MapReduce中的每一个job,以及HDFS等相转载 2015-11-24 22:55:21 · 1043 阅读 · 0 评论 -
scrapy研究探索(二)——爬w3school.com.cn
文章转自:http://blog.youkuaiyun.com/u012150179/article/details/32911511下午被一个问题困扰了好一阵,最终使用另一种方式解决。开始教程二,关于Scrapy安装、介绍等请移步至教程(一)(http://blog.youkuaiyun.com/u012150179/article/details/32343635)。在开始之前假设你已经成功安转载 2015-11-01 16:36:20 · 1349 阅读 · 0 评论 -
几种C++分词软件
本文不是专业的介绍中文的知识,只是由于项目上可能需要中文分词,在网上找了一些资料,再次记录一下。主要参考网站是oschina里面收录的内容:中科院中文分词 ICTCLAS这个据说效率挺高,但不是纯开源版本,里面有个文章12年7月1日失效,就是由于授权协议失效,所以要用到这个类库的时候要小心了,当然你可以购买版权。还有一个重要的问题是官网打不开。http:转载 2015-11-22 20:24:20 · 1464 阅读 · 0 评论 -
关于正向索引与反向索引
这一节我们来看看搜索引擎中最重要的几个数据结构。前面我们说过索引包含正向索引和反向索引两部分,首先我们看看正向索引的结构。正向索引用来存储文档的各种属性,从逻辑上讲,正向索引其实就是一个大数组,数组中每个元素就是一个文档的属性集合。如果正向索引是有Schema的,那么它其实就类似一个关系表或者说二维数组,纵轴是文档,横轴是属性;如果正向索引是Sche转载 2015-10-29 21:10:51 · 7573 阅读 · 0 评论 -
搜索引擎的基础知识
搜索引擎的原理其实很简单,写出来没两页纸,但是实现中的各种细节写成的论文可以堆满两个图书馆。让我们先从原理说起。首先需要用输入数据创建索引,对于互联网搜索引擎,输入数据是一个个由爬虫从网上抓回来的网页,经过清洗之后进行内容抽取,然后整理成统一的格式交给索引程序创建索引。索引由以下几个基本的组成部分:1. 倒排索引,这一部分存放"关键字"->文转载 2015-10-29 20:50:02 · 689 阅读 · 0 评论 -
python搜索引擎之搜索系统的建立——根据关键字命中次数排分给出前若干个答案
根据前面的博客建立了如下的各种索引库的表:1.词典(对每个关键字分配一个 wordId)词典放在命名为 backwardTableDb.db 中的 wordIdTable 中,见部分字典截图如下:2.建立后向索引,及相关表项后向索引有两个表项,其中第一个表项是后向索引表,其指定每个wordId,以及出现过该关键字的doc 的数量,同时还有该关键字的 doc原创 2015-11-13 00:09:28 · 1763 阅读 · 0 评论 -
Python 列表中存储类对象时按照指定属性进行排序——用于正排表的排序
搜索引擎中,在建立了正排表后需要对正排表按照wordId进行排序,且该排序要保持稳定的特性。因此想到了在 python 的列表中存储一个类,通过指定类的某个属性来进行排序。具体代码如下:1.首先定义类,按照需求定义:class pageObj: url = '' docId = 0 def __init__(self,U,Id): self原创 2015-11-05 18:08:01 · 8101 阅读 · 0 评论 -
python与数据库
文章转自:http://www.cnblogs.com/vamei/p/3794388.htmlPython自带一个轻量级的关系型数据库SQLite。这一数据库使用SQL语言。SQLite作为后端数据库,可以搭配Python建网站,或者制作有数据存储需求的工具。SQLite还在其它领域有广泛的应用,比如HTML5和移动端。Python标准库中的sqlite3提供该数据库的接口。我将转载 2015-11-03 22:33:07 · 754 阅读 · 0 评论 -
jieba分词
文章转自:http://www.oschina.net/p/jiebajieba"结巴"中文分词:做最好的Python中文分词组件 "Jieba" Feature支持三种分词模式:精确模式,试图将句子最精确地切开,适合文本分析;全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;搜索引擎模式转载 2015-11-03 22:30:03 · 1150 阅读 · 0 评论 -
python对象内存分析
文章转自:http://blog.youkuaiyun.com/ti_tantbx/article/details/21977397python对象内存分析一、python内建对象python内建对象占用内存的情况又分为定长对象与非定长对象(变长)1.1 定长对象,对象在内存中所占大小不会变化的对象包括int,float,long,bool,complex和dict转载 2015-12-07 23:00:27 · 526 阅读 · 0 评论