
Python&Java网页爬虫
zcy0xy
这个作者很懒,什么都没留下…
展开
-
http响应状态码大全(转)
http状态返回代码 1xx(临时响应) 表示临时响应并需要请求者继续执行操作的状态代码。 http状态返回代码: 代码 说明 100 (继续) 请求者应当继续提出请求。 服务器返回此代码表示已收到请求的第一部分,正在等待其余部分。 101 (切换协议) 请求者已要求服务器切换协议,服务器已确认并准备切换。 http状态返回代码 2xx (成功) 表示成功转载 2016-11-28 14:34:53 · 2183 阅读 · 0 评论 -
Http传输Header一览
response header: Date 服务器端时间 Server 服务器端的服务器软件 Apache/2.2.6 Etag 文件标识符 Content-Encoding传送启用了GZIP压缩 gzip Content-Length 内容长度 Content-Type 内容类型 请求Header(HTTP request header ): Host 请求的域名转载 2016-11-28 14:40:03 · 1229 阅读 · 0 评论 -
Cookie学习笔记
简介: 会话跟踪是Web程序中常用的技术,用来跟踪用户的整个会话。常用的会话跟踪技术是Cookie与Session。 Cookie通过在客户端记录信息确定用户身份,Session通过在服务器端记录信息确定用户身份。 查看某个网站颁发的Cookie很简单: 在浏览器地址栏输入JavaScript:alert (document. cookie) Cookie具有不可跨域原创 2016-11-28 14:41:18 · 265 阅读 · 0 评论 -
Http学习笔记——报文类别
在 MIME 扩展中会使用一种称为多部分对象集合(Multipart)的方法,来容纳多份不同类型的数据。包含的对象如下: form-data 在 Web 表单文件上传时使用。 byteranges 状态码 206(Partial Content,部分内容)响应报文包含了多个范 围的内容时使用。 在 HTTP 报文中使用多部分对象集合时,需要在首部字段里加上“Content-ty原创 2016-11-28 14:42:31 · 364 阅读 · 0 评论 -
Scrapy学习笔记一
scrapy新建 scrapy startproject 项目名字 新建后的目录: scrapy.cfg:项目的配置文件 tutorial/:项目的Python模块,将会从这里引用代码 tutorial/items.py:项目的items文件 tutorial/pipelines.py:项目的pipelines文件 tutorial/settings.py:项目的设置文件 tu原创 2016-12-03 08:40:48 · 522 阅读 · 0 评论 -
webdriver相关操作
from selenium import webdriver from selenium.common.exceptions import NoSuchElementException 选择浏览器: driver = webdriver.Firefox() 打开url: driver.get("http://www.baidu.com") 等待: driver.implicitly_wai转载 2016-12-04 11:59:06 · 334 阅读 · 0 评论