
搜索引擎
冰阔落
Stay hungry, Stay foolish, Stop when you are perfect.
展开
-
快速提高 优快云 访问量
转载:http://blog.youkuaiyun.com/fontthrone/article/details/75287311快速提高优快云访问量的方法多写常用知识点的博客,想办法提高百度排名,注意标题不要写的太复杂写国内比较新的技术,中短期奇效,效果很好成系列的写技术文章,有利于增加评论,粉丝,中长期能够大幅度提高日常访问量成系列的专栏,利于增加粉丝,亦能提高日常访问量,同上想办法转载 2017-07-24 09:36:33 · 4311 阅读 · 14 评论 -
WebMagic 如何设置 cookie, 以及发送 post 请求
步骤一:先用 httpclient 发起请求获取请求页面的 cookie 步骤二:WebMagic 利用获取到的 cookie ,对其他页面发起请求//爬取视频页面信息class VideoSpider { public String cookie; public String showMoreURL; public String session_token; p原创 2016-07-22 17:54:54 · 18761 阅读 · 1 评论 -
资讯抓取
爬虫网页的抓取利用 WebMagic 来爬取网页流程:编写爬取规则,让 WebMagic 按照此规则来爬取网页 优点:学习成本低,文档全,上手快 缺点:不能获取 Cookie最终方案方案:利用 WebMagic 来爬取网页 理由:WebMaic 简单易用,文档全 缺点:不能获取 Cookie 解决方案:先利用 HttpCilent 发送请求来获取 Cookie网页的渲染利用无界面浏览器进行原创 2016-09-06 09:06:39 · 1585 阅读 · 0 评论 -
网络爬虫研发重点介绍
一、网络爬虫的一般作法1.1 基于Socket通信编写爬虫1.2 基于HttpURLConnection类编写爬虫1.3 基于apache的HttpClient包编写爬虫1.4 基于phantomjs之类的无头(无界面)浏览器1.5 基于Selenium之类的有头(有界面)浏览器二、系统设计2.1 模块划分:任务管理的UI交互层、任务调度层、网络爬取转载 2016-09-09 18:40:08 · 2240 阅读 · 0 评论 -
scrapy入门教程1:scrapy环境配置以及安装
0. 基本环境说明本文截图及运行环境均在MAC OS X 10.9.5上实现,但基本步骤与win 7环境上相同(其实我是先在win7折腾了一把,然后为了写这篇教程,又在OS X 上面重新搞了一遍)scrapy版本为1.0参考文献以及下载链接:anaconda下载链接1. 基本环境配置1. anaconda刚接触python和机器学习的人,想必已经被python中眼...转载 2018-04-17 09:13:12 · 437 阅读 · 0 评论 -
scrapy入门教程2:建立一个简单的爬取南邮新闻标题的爬虫demo
0. 基本环境说明本文截图及运行环境均在MAC OS X 10.9.5上实现,但基本步骤与win 7环境上相同(其实我是先在win7折腾了一把,然后为了写这篇教程,又在OS X 上面重新搞了一遍)scrapy版本为1.0参考文献以及下载链接:本爬虫参考代码打包下载1. 建立步骤通过上一篇内容我们已经将scrapy环境配置完毕,下面我们来实现一个demo来爬取南京邮电大学新...转载 2018-04-17 09:42:01 · 368 阅读 · 0 评论 -
搜索引擎重复网页发现技术分析
搜索引擎重复网页发现技术分析 中科院软件所 张俊林TIMESTAMP:2006年6月1日 一. 介绍统计结果表明,近似镜像网页数占总网页数的比例高达全部页面的29%,而完全相同的页面大约占全部页面的22%。这些重复网页有的是没有一点改动的拷贝,有的在内容上稍作修改,比如同一文章的不同版本,一个新一点,一个老一点,有的则仅仅是网页的格式不同(如 HTML, Postscript),文献[Mode...转载 2018-03-29 14:22:00 · 518 阅读 · 0 评论 -
搜索2.0:利用用户点击记录改善搜索结果
搜索2.0:利用用户点击记录改善搜索结果 Author:张俊林 timestamp:2007年7月 现在是WEB2.0时代了(据真实传言好像已经快4.0了,比微软升级还快,我估计年底前会出现web5.0的说法,大家赶紧想想应该是什么,争取第一个提出这个概念,为中国争光),大家都在讲U...转载 2018-03-29 14:32:35 · 322 阅读 · 0 评论