
数据采集-搜索引擎
ATCO
我很懒,随便留下几个字。
展开
-
Fiddler实现iPhone手机抓包
1、电脑上安装Fiddler抓包工具,然后进行设置 安装之后点Tools -- Options菜单,按照下面截图设置HTTPS,不然没法解密 还有Connections选项,选中允许远程连接。 到这里电脑端配置就结束了 2、手机端配置 确保手机的网络和电脑网络是能连通的(最方便的是同一个WiFi) 查看电脑ip地址(用于配置手机使用电脑IP作为代理) 然后进入iPhone打开设置 - 无线局域网,点你链接的网络后面圈出来的那个叹号按钮。 点开后在最下面点配置代理按钮,打...原创 2020-06-08 15:52:51 · 3290 阅读 · 0 评论 -
构建一个高性能的网页抓取器
互联网的发展,使人类提前进入了信息爆炸的年代,在浩瀚无边的信息海洋里,如何快速、准确找到对自己有用的信息,就成了一个很有价值的研究课题,于是,搜索引擎应运而生。现在,国内外大大小小的搜索引擎有很多,搜搜也是这搜索引擎大军中的一员悍将。笔者有幸参与了搜搜研发过程中的一些工作,在这里写一些自己的理解与看法,权当是抛砖引玉,希望能够得到业内前辈们的一些指点。 对于网页搜索引擎来说,它的基本转载 2013-08-06 11:26:03 · 809 阅读 · 0 评论 -
spider技术综述
Spider系统是搜索引擎当中进行互联网上数据采集的一个核心子系统。在这个子系统当中,通常先种入一批种子Url,Spider对这些种子Url采集之后将链接提取入库,然后再对新入库的Url进行采集,并且负责对采集过的Url进行更新采集,如此循环。 随着各种垂直搜索引擎的不断发展,整个Spider在功能上又分为传统的收集互联网上所有数据的大Spider和服务于某个专门领域的聚焦转载 2013-08-06 11:03:31 · 817 阅读 · 0 评论 -
网页分类技术介绍
1. 技术背景 分类问题是人类所面临的一个非常重要且具有普遍意义的问题。将事物正确的分类,有助于人们认识世界,使杂乱无章的现实世界变得有条理。自动文本分类就是对大量的自然语言文本按照一定的主题类别进行自动分类,它是自然语言处理的一个十分重要的问题。文本分类主要应用于信息检索,机器翻译,自动文摘,信息过滤,邮件分类等任务。文本分类的一个关键问题是特征词的选择问题及其权重分配。转载 2013-08-06 11:44:08 · 1015 阅读 · 0 评论 -
HTTP 返回状态值
一些常见的状态码为: 200 - 服务器成功返回网页 404 - 请求的网页不存在 503 - 服务器超时 下面提供 HTTP 状态码的完整列表。点击链接可了解详情。您也可以访问 HTTP 状态码上的 W3C 页获取更多信息。 1xx(临时响应) 表示临时响应并需要请求者继续执行操作的状态码。 100(继续)请求者应当继续提出请转载 2013-05-24 10:08:31 · 639 阅读 · 0 评论 -
如何识别高级的验证码
一、验证码的基本知识 1. 验证码的主要目的是强制人机交互来抵御机器自动化攻击的。 2. 大部分的验证码设计者并不得要领,不了解图像处理,机器视觉,模式识别,人工智能 的基本概念。 3. 利用验证码,可以发财,当然要犯罪:比如招商银行密码只有6位,验证码形同虚设,计 算机很快就能破解一个有钱的账户,很多帐户是可以网上交易的。 4. 也...转载 2018-04-20 15:15:06 · 303 阅读 · 0 评论