
搜索引擎技术
文章平均质量分 58
cserchen
盛大 百度 复旦 数据挖掘 推荐系统 搜索引擎 机器学习
展开
-
中文编码识别通用宏
之前的文章介绍了中文编码的复杂性,做网页分析或者搜索引擎的程序员们或多或少会用到,这里贴几个我的中文编码识别的宏,与大家分享: #define IS_GB(cst) ( IN_RANGE((cst)[0], SYM_HIMIN, SYM_HIMAX) && IN_RANGE((cst)[1], SYM_LOMIN, SYM_LOMAX) )#define IS_GBK(cst)原创 2010-04-16 16:27:00 · 1551 阅读 · 0 评论 -
TSE网页存储、中文分词、倒排索引生成
TSE网页存储<br /> <br />根据驻留在内存里的set集合,取出没有爬取的网页连接,然后就去把它下载下来.<br />比如,下载了1000个网页,然后把这1000个HTML都放到一个文件里去,这个文件可能叫TianWang.raw.8415<br />意思就是线程号为8415的取的原始网页集合文件<br />对于每个在TianWang.raw.8415中的记录,都有一个对应的类叫CDocument(有点类似CPage.)<br />需要建立一个表,对每个记录(CDocument)在原始网页文件中的原创 2010-11-12 11:59:00 · 2018 阅读 · 0 评论 -
TSE(Tiny Search Engine)介绍
TSE是Tiny Search Engine(“微型搜索引擎”)的简称,由北京大学网络实验室出品这个实验室推出过当年教育网搜索颇有名气的 “北大天网搜索”天网培养了中文互联网早期的一批的搜索技术专家bd的技术路线和TSE很像TSE包括网页抓取、分词、倒排索引生成等模块,可以视为天网的袖珍版。 代码用C++开发,短小精干,运行效率很高我感觉实际效果比开源的一些Spider要好,修改起来也很方便 TSE网页抓取开始是main函数,在main.cpp如果控制台参数是1个,就进行搜索:CSearch iSearch原创 2010-11-12 11:46:00 · 3900 阅读 · 1 评论 -
程序员趣味测试题(附答案)
<br />一,选择题(皆为单选):<br /> <br /><br /><br />1<br />,以下谁是二进制思想的最早提出者?<br />a,伏羲;b,姬昌;c,莱布尼茨;d,柏拉图。<br /><br />2,以下哪个概念和公孙龙的《指物论》中的“指”字含义相近?<br />a,变量;b,数组;c,对象;d,指针。<br /><br />3,蔺相如,司马相如;魏无忌,长孙无忌。下列哪一组对应关系与此类似?<br />a,PHP,Python;b,JSP,servlet;c,java,java sc转载 2011-05-26 13:04:00 · 13315 阅读 · 0 评论 -
怎样量化评估搜索引擎的结果质量
应InfoQ 张凯峰的邀请,写了篇《怎样量化评估搜索引擎的结果质量》对搜索引擎的评估体系、评估方法、常用评估指标进行了总结,供对此感兴趣的朋友们参考(陈运文) 原文链接如下:http://www.infoq.com/cn/articles/cyw-evaluate-seachengine-result-quality 章节目录: 1前言2Cranfield评原创 2011-06-13 11:30:00 · 4015 阅读 · 0 评论 -
常见域名后缀词典
常见域名后缀词典:列举url中常用的一些domain域名片段,做url解析、site提取时会有帮助arpaaerobizcomcoopedugovinfointmilmuseumnamenetorgproacadaeafagaialamanaoaqarasatauaw原创 2011-12-01 10:09:32 · 3179 阅读 · 0 评论 -
python编辑器对比和推荐
发信人: RunningOn (挥着翅膀的男孩), 信区: Python标 题: python IDE比较与推荐我先给一个初步的表格吧,大家如果有什么意见,或有补充,欢迎提出。有些我没有用过,先不写了。以下是我使用过的python IDE:除了PythonWin, VisualPython只支持Windows,其它都至少支持Win/Linux/Mac。各项含义:转载 2011-12-02 21:58:26 · 145286 阅读 · 9 评论 -
广告计算中的AUC和ROC曲线
AUC的英文全称为 Area Under Curve,AUC的意思是曲线下面积,在计算广告学中,AUC经常用于统计ROC曲线的面积,用来量化评估广告的CTR质量。这里再解释一下ROC的含义,ROC全称为:Receiver Operating Characteristics (ROC) graphs ROC经常被用于模式识别、分类器的结果展现和性能评测。传统的ROC曲线多用于医学检测领域,2000年原创 2012-05-04 16:06:46 · 15383 阅读 · 2 评论 -
机器学习资源大全
推荐!国外程序员整理的机器学习资源大全本列表选编了一些机器学习领域牛B的框架、库以及软件(按编程语言排序)。C++计算机视觉CCV —基于C语言/提供缓存/核心的机器视觉库,新颖的机器视觉库OpenCV—它提供C++, C, Python, Java 以及 MATLAB接口,并支持Windows, Linux, Android and Mac OS操转载 2014-08-25 18:57:31 · 4143 阅读 · 0 评论 -
详细分析推荐系统和搜索引擎的差异陈运文
详细分析推荐系统和搜索引擎的差异陈运文 从信息获取的角度来看,搜索和推荐是用户获取信息的两种主要手段。无论在互联网上,还是在线下的场景里,搜索和推荐这两种方式都大量并存,那么推荐系统和搜索引擎这两个系统到底有什么关系?区别和相似的地方有哪些?本文作者有幸同时具有搜索引擎和推荐系统一线的技术产品开发经验,结合自己的实践经验来为大家阐述两者之间的关系、分享自己的体会(达观数据陈运文博士)原创 2015-12-29 00:12:06 · 18685 阅读 · 2 评论 -
腾讯搜搜soso升级之路
<br />腾讯soso的logo改版了,个人感觉,<br />原先的logo比较山寨,新的logo明显比原先的大气多了<br />很看好搜搜,是国内最有实力挑战百度霸主地位的种子选手<br />虽然个人对百度很有感情,线上还跑着我写过的代码<br />但从搜索领域来看,一家独大对行业发展、技术进步非常不利<br />soso加油<br />原创 2010-10-28 22:53:00 · 1185 阅读 · 0 评论 -
广告屏蔽,吹响360与百度下一场战斗的号角
<br />360和百度的恩怨情仇已经延续了快10年了<br />01年,从百度刚出道时起,两家就打得不可开交<br /> <br />在浏览器工具栏的争夺上,当年的战斗极为惨烈,<br />各自的工具栏安装时,会自动查找并卸载对手的工具栏<br />可谓白刀子进红刀子出的贴身肉搏战<br /> <br />在上一次圣战过程中,百度由于更多的重视了技术的研发,在用户体验上占了先机;<br />特别是05年上市以后,基本上取得了压倒性的胜利,李彦宏赢得漂亮<br /> <br />世事难料,周鸿祎凭借360安原创 2010-09-19 10:43:00 · 1395 阅读 · 0 评论 -
简单的网页下载方法
可以使用下面的命令 wget -r -p -k -np http://hi.baidu.com/phps , -r 表示递归下载,会下载所有的链接。不过要注意的是,不要单独使用这个参数,因为如果你要下载的网站也有别的网站的链接。wget也会把别的网站的东西下载下来,由于互联网的特性,很有可能你会把整个互联网下载下来,所以要加上 -np这个参数,表示不下载别的站点的链接. -k表示将下载的网页里的链接修改为本地链接.-p获得所以显示网页所需的元素,比如图片什么的.另外还有其他的一些参数可以使用:-c表示断点转载 2010-06-22 18:00:00 · 1404 阅读 · 0 评论 -
搜索引擎观察——google改版
今天google改版了,明显的几个变化是: 1 logo变了,改掉了以前过于浓重的字母投影,现在视觉效果清爽很多2 去掉了log上的TM3 搜索按钮形式变了4 搜索结果左侧的控制面板是“标配”了;以前需要点“options/百宝箱”才能出来,左侧控制面板看来是大势所趋; 关于这一点再多说几句:中文搜索引擎中,腾讯soso率先将左侧的工具条作为“标配”推出,敢为天下先,相原创 2010-05-06 17:06:00 · 1083 阅读 · 0 评论 -
HTTP状态码
HTTP状态码介绍<br />如果向您的服务器发出了某项请求要求显示您网站上的某个网页(例如,当用户通过浏览器访问您的网页或在 Googlebot 抓取该网页时),那么,您的服务器会返回 HTTP 状态代码以响应该请求。Array( [100] => Continue [101] => Switching Protocols [200] => OK [201] => Created [202] => Accepted [203] => Non-转载 2010-07-05 13:02:00 · 1032 阅读 · 0 评论 -
用于图像搜索和匹配的SIFT算法介绍
SIFT算法由D.G.Lowe 1999年提出,2004年完善总结,论文发表在2004年的IJCV上:David G. Lowe, "Distinctive image features from scale-invariant keypoints," International Journal of Computer Vision, 60, 2 (2004), pp. 91-110论文的原创 2010-05-19 11:02:00 · 22225 阅读 · 6 评论 -
大赞google的创意logo
今早上google查资料,忽然眼前一亮,google的logo是黑底蓝色迷宫的图案,再仔细一看,居然是小时候在8位红白机上常玩的吃豆子游戏!英文叫PAC-man,这次的logo是纪念游戏发布30周年。无意中点了一下logo,发现内有乾坤!原来不仅仅是个图片,而居然可以直接在线玩游戏!太有创意了! 俺拿出了当年不通关不罢休的劲头开始玩,死了N次以后成功一命通关!通关后整个代表google的游戏边原创 2010-05-22 10:08:00 · 1439 阅读 · 0 评论 -
开源爬虫Labin Nutch Neritrix介绍和对比
从网上找了一些开源spider的相关资料,整理在下面: -----------------------------------------------------------------------------------**************Larbin开发语言:C++http://larbin.sourceforge.net/index-eng.htmllarbin是个基转载 2010-05-24 10:58:00 · 5389 阅读 · 0 评论 -
LSH算法参考资料
<br />LSH(Location Sensitive Hash),即位置敏感哈希函数。与一般哈希函数不同的是位置敏感性,也就是散列前的相似点经过哈希之后,也能够在一定程度上相似,并且具有一定的概率保证。 相似性检索在各种领域特别是在视频、音频、图像、文本等含有丰富特征信息领域中的应用变得越来越重要。丰富的特征信息一般用高维向量表示,由此相似性检索一般通过K近邻或近似近邻查询来实现。一个理想的相似性检索一般需要满足以下四个条件:<br />1. 高准确性。即返回的结果和线性查找的结果接近。<br />2.转载 2010-06-01 13:39:00 · 3055 阅读 · 0 评论 -
网页编码识别的方法 - charset
<br />提取网页编码,最简单也是最有效的方法是到网页数据头里去找<br />但方法要写的稳定、通用,其实并没有表明上看的那样简单<br /> <br />陈运文<br /> <br />这些简单写写注意点:<br /> <br />1 charset string 的选取<br /> <br />注意不同的网页lang标准,string可能是不同的:<br /> <br /> bool is_xml = html_start != NULL && (strncmp(html_start, "<rss",原创 2010-06-08 18:34:00 · 1730 阅读 · 0 评论 -
智能Web算法第二版前言和译者序
在众多有关机器学习和数据挖掘的书籍里,《智能Web算法》一书是颇为经典的一本,其特点之一是内容覆盖面很全,《智能Web算法》(第二版)从数据采集、存储,到降维运算和结构抽取,以及涉及模式识别的聚类和分类、统计机器学习理论等,还有面向互联网应用的推荐系统、搜索引擎、广告点击预测等,包括配套的效果评估机制也有专门的章节进行了讲解原创 2017-07-11 14:44:06 · 2037 阅读 · 0 评论