
Crawler
文章平均质量分 67
Nucky_
突出一个控制
展开
-
简单的百度贴吧爬虫
最近在学爬虫,看了点视频学了点东西,写了一个百度贴吧的爬虫上来目前只是把爬取网页信息,存储到本地#-*- coding:utf-8 -*-# 识别中文注释 import urllib2def load_page(url): user_agent ="Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.11 (KHTM原创 2016-06-16 17:47:00 · 618 阅读 · 0 评论 -
关于Session 与Cookie
网上关于Cookie与Session的之间关系的教学资料很多,了解了一些后自己整理一份Cookie通过在客户端记录信息,确定用户的身份。Session通过在服务端记录信息,确定用户的身份。1.1 Cookie机制在程序中,会话跟踪是很重要的事情。理论上,一个用户的所有请求操作都应该属于同一个会话,而另一个用户的所有请求操作则应该属于另一个会话,二者不能混淆。例原创 2016-07-27 16:23:17 · 658 阅读 · 0 评论 -
HttpClient request payload post请求
最近在做一些爬虫相关的工作,遇到了一个网站,在使用谷歌开发者工具监控的时候,发现他的请求是这样的我们都知道传统的post请求,所提交的是form data 格式的,key-value键值对的形式提交。这个在爬虫post请求中非常常见。第一次遇到了这种形式提交的,后面去找了很多方法,发现在百度搜的答案都用不了,后面翻墙去了stackoverflow,这边贴上地址http://st原创 2016-10-07 17:33:50 · 13465 阅读 · 1 评论 -
网络爬虫技术交流——爬虫第三课
CNKI例子后续首先我们先来看看CNKI的主页,常用的就是往搜索框中数据所要查找的数据,根据所需语言选择对应的文献。在爬虫第一课,我们介绍了fiddler、chrome开发者工具、firebug等工具。爬虫关键的一部就是要了解到你的电脑和互联网之间的http通讯,然后了解到请求方式,请求地址,所需参数等信息后,再通过代码发送请求。我个人常用的原创 2017-03-30 18:04:25 · 825 阅读 · 0 评论 -
网络爬虫技术交流——爬虫第一课
爬虫的基本概念•按照一定的规则,自动地抓取万维网信息的程序或者脚本常见的爬虫分类•通用网络爬虫•爬取对象从一些种子URL 扩充到整个Web,主要为门户站点搜索引擎和大型Web 服务提供商采集数据)•聚焦网络爬虫•又称主题网络爬虫(TopicalCrawler),是指选择性地爬取那些与预先定义好的主题相关页面的网络信息•增量式网原创 2017-03-26 19:20:24 · 2627 阅读 · 0 评论 -
网络爬虫技术交流——爬虫第二课
爬虫代码Demo的演示 CloseableHttpClient client = HttpClients.createDefault(); //创建HttpClient对象 HttpGet request = new HttpGet("https://www.baidu.com/"); //创建一个GET请求 HttpResponse response = cl原创 2017-03-26 19:48:46 · 1250 阅读 · 0 评论 -
WebCollector java.lang.NoClassDefFoundError: org/openqa/selenium/htmlunit/HtmlUnitDriver 问题解决方案
最近在做一个项目参加比赛,需要截取很多数据,意外找到了一个程序叫webcollector 然而在使用的时候出了一个问题 java.lang.NoClassDefFoundError: org/openqa/selenium/htmlunit/HtmlUnitDriver 不停得提示这个 ,在网上找了很久没发现解决方案不想草草了之,google了NoClassDefFoundErro原创 2015-07-31 11:38:33 · 7160 阅读 · 2 评论 -
Illegal character in query Url中含有{}
在抓取某网站信息的时候,url是这样的: http....{...}...,出现了大括号。原样将url放在代码里,发送post请求的时候,发现请求不到数据。但把url放到浏览器里是ok的。对相关的参数数据,均已进行了URLencode编码,但仍然不起作用。后面想了想,干脆对{}也encode试试,毕竟没有遇到过url里有{}的,数据可以获取到了。报Illegal cha原创 2016-11-21 23:43:02 · 2953 阅读 · 0 评论