
爬虫
埋首沉迷.
有意义就是好好活,好好活就是做有意义的事
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
scrapy框架基础
scrapy框架基础 一、Scrapy Shell 1.简介 Scrapy Shell是用来调试Scrapy项目代码的命令行工具,启动的时候预定义了Scrapy的一些对象 Scrapy Shell的作用:调试 2.设置 Scrapy 的shell是基于运行环境中的python 解释器shell,本质上就是通过命令调用shell,并在启动的时候预定义需要使用的对象 scrapy允许通过在项目配置文件...原创 2019-11-29 15:35:23 · 883 阅读 · 2 评论 -
scrapy框架入门
scrapy框架入门 一、Scrapy框架介绍 1.框架简介 Scrapy是纯Python开发的一个高效,结构化的网页抓取框架 Scrapy使用了Twisted 异步网络库来处理网络通讯 Scrapy是为了爬取网站数据,提取结构性数据而编写的应用框架 Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试 2.模块安装 scrapy支持Python2.7和python3.4以上版本 pyth...原创 2019-11-29 15:34:24 · 471 阅读 · 2 评论 -
User-Agent
User-Agent User Agent中文名为用户代理,是Http协议中的一部分,属于头域的组成部分,简称UA。它是一个特殊字符串头,是一种向访问网站提供你所使用的浏览器类型及版本、操作系统及版本、浏览器内核、等信息的标识,通过这个标识,用户所访问的网站可以显示不同的排版从而为用户提供更好的体验或者进行信息统计 0.User-Agent池 MY_USER_AGENTS = [ ...原创 2019-11-29 15:32:45 · 920 阅读 · 0 评论 -
fiddler抓包工具
fiddler抓包工具 一、fiddler 1.安装 Fiddler官方网站下载安装:https://www.telerik.com/fiddler Fiddler在官网上有提供非常详细的文档和教程,可直接查阅官网文档 2.配置 抓包工具抓取HTTPS的包的时候跟HTTP的直接转发是不同的,所以需要配置HTTPS的证书:Tools》options》HTTPS》勾上所有选项》勾选上下方出现的两个选项...原创 2019-11-29 15:31:30 · 399 阅读 · 0 评论 -
requests库
requests库 一、简介 1.简介 Requests是一个优雅而简单的Python HTTP库,是有史以来下载次数最多的Python软件包之一,作者是Kenneth Reitz 2. 安装 pip install requests 3.官方文档 中文文档:http://cn.python-requests.org/zh_CN/latest/ 英文文档:http://docs.python-re...原创 2019-11-29 15:26:32 · 246 阅读 · 0 评论 -
urllib库
urllib库 一、urllib简介 urllib 是一个用来处理网络请求的python内置标准库,它包含4个模块 urllib.request:HTTP请求模块,用于模拟浏览器发起网络请求 urllib.parse:解析模块,用于解析URL urllib.error:异常处理模块,用于处理request引起的异常 urllib.robotparser:用于解析robots.txt文件,应用较少...原创 2019-11-29 15:25:00 · 5197 阅读 · 0 评论 -
网络编程
网络编程 一、网络模型 1.osi 七层网络模型 OSI模型,即开放式通信系统互联参考模型,是国际标准化组织(ISO)提出的一个试图使各种计算机在世界范围内互连为网络的标准框架,简称OSI。这是一种事实上被TCP/IP 4层模型淘汰的协议,在当今世界上没有大规模使用 具体七层 数据格式 功能连接方式 典型设备 应用层 用户的应用程序和网络之间的接口 计算机 表示层 协商数据...原创 2019-11-29 15:23:50 · 321 阅读 · 0 评论 -
爬虫基础
爬虫基础 一、HTTP基本原理 1.应用架构 c/s 即 client server 客户端 服务端 b/s 即 browser server 浏览器 服务端 m/s 即 moblie server 移动端 服务端 2.URI和URL URI中文是统一资源标志符,URL中文是统一资源定位符 URI包含URL和URN,URN用得非常少,URN只命名资源而不指定如何定位资源,发送http请求时,...原创 2019-11-29 15:10:30 · 254 阅读 · 0 评论