
------ 爬虫
文章平均质量分 80
__静禅__
这个作者很懒,什么都没留下…
展开
-
Python3 --- 爬虫入门
import urllib.parseimport urllib.requestdef loadPage(url,filename): ''' 作用:根据url发送请求,获取服务器响应文件 url:需要爬取的url地址 filename:处理的文件名 ''' print("正在下载" + filename) he...原创 2018-07-09 15:51:57 · 299 阅读 · 0 评论 -
Scrapy爬虫入门教程八 交互式 shell 方便调试
Scrapy爬虫入门教程一 安装和基本使用 Scrapy爬虫入门教程二 官方提供Demo Scrapy爬虫入门教程三 命令行工具介绍和示例 Scrapy爬虫入门教程四 Spider(爬虫) Scrapy爬虫入门教程五 Selectors(选择器) Scrapy爬虫入门教程六 Items(项目) Scrapy爬虫入门教程七 Item Loaders(项目加载器) S...转载 2018-07-17 17:14:46 · 1146 阅读 · 0 评论 -
Scrapy爬虫入门教程九 Item Pipeline(项目管道)
Scrapy爬虫入门教程一 安装和基本使用 Scrapy爬虫入门教程二 官方提供Demo Scrapy爬虫入门教程三 命令行工具介绍和示例 Scrapy爬虫入门教程四 Spider(爬虫) Scrapy爬虫入门教程五 Selectors(选择器) Scrapy爬虫入门教程六 Items(项目) Scrapy爬虫入门教程七 Item Loaders(项目加载器) Scra...转载 2018-07-17 17:14:55 · 1197 阅读 · 0 评论 -
Scrapy爬虫入门教程十 Feed exports(导出文件)
Scrapy爬虫入门教程一 安装和基本使用 Scrapy爬虫入门教程二 官方提供Demo Scrapy爬虫入门教程三 命令行工具介绍和示例 Scrapy爬虫入门教程四 Spider(爬虫) Scrapy爬虫入门教程五 Selectors(选择器) Scrapy爬虫入门教程六 Items(项目) Scrapy爬虫入门教程七 Item Loaders(项目加载器) Scra...转载 2018-07-19 14:07:54 · 1517 阅读 · 0 评论 -
Scrapy爬虫入门教程十一 Request和Response(请求和响应)
Scrapy爬虫入门教程一 安装和基本使用 Scrapy爬虫入门教程二 官方提供Demo Scrapy爬虫入门教程三 命令行工具介绍和示例 Scrapy爬虫入门教程四 Spider(爬虫) Scrapy爬虫入门教程五 Selectors(选择器) Scrapy爬虫入门教程六 Items(项目) Scrapy爬虫入门教程七 Item Loaders(项目加载器) Scra...转载 2018-07-19 14:08:07 · 1898 阅读 · 0 评论 -
Scrapy爬虫入门教程十二 Link Extractors(链接提取器)
Scrapy爬虫入门教程一 安装和基本使用 Scrapy爬虫入门教程二 官方提供Demo Scrapy爬虫入门教程三 命令行工具介绍和示例 Scrapy爬虫入门教程四 Spider(爬虫) Scrapy爬虫入门教程五 Selectors(选择器) Scrapy爬虫入门教程六 Items(项目) Scrapy爬虫入门教程七 Item Loaders(项目加载器) S...转载 2018-07-19 14:08:15 · 1139 阅读 · 1 评论 -
Python3 --- BeautifulSoup4用法总结
一、BeautifulSoup4简介 BeautifulSoup4和 lxml 一样,Beautiful Soup 也是一个HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 数据。官方文档:http://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/二、BeautifulSoup4主要解析器,以及优缺点:三、Beautif...原创 2018-07-11 17:06:24 · 9212 阅读 · 1 评论 -
Python3 --- JSON与JsonPath用法总结
一、JSON简介 JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式,它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互的场景,比如网站前台与后台之间的数据交互。官方文档:https://docs.python.org/3/library/json.htmlJSON在线解析工具:http://www.json...原创 2018-07-12 14:41:15 · 7050 阅读 · 0 评论 -
Python3 --- 多线程爬虫
import requestsfrom lxml import etreefrom queue import Queueimport threadingimport timeimport jsonclass thread_crawl(threading.Thread): ''' 抓取线程类 ''' def __init__(self, thread...原创 2018-07-12 16:20:57 · 1864 阅读 · 0 评论 -
Scrapy爬虫入门教程十三 Settings(设置)
Scrapy爬虫入门教程一 安装和基本使用 Scrapy爬虫入门教程二 官方提供Demo Scrapy爬虫入门教程三 命令行工具介绍和示例 Scrapy爬虫入门教程四 Spider(爬虫) Scrapy爬虫入门教程五 Selectors(选择器) Scrapy爬虫入门教程六 Items(项目) Scrapy爬虫入门教程七 Item Loaders(项目加载器) Scra...转载 2018-07-19 14:25:52 · 4328 阅读 · 0 评论 -
Scrapy爬虫入门教程七 Item Loaders(项目加载器)
Scrapy爬虫入门教程一 安装和基本使用 Scrapy爬虫入门教程二 官方提供Demo Scrapy爬虫入门教程三 命令行工具介绍和示例 Scrapy爬虫入门教程四 Spider(爬虫) Scrapy爬虫入门教程五 Selectors(选择器) Scrapy爬虫入门教程六 Items(项目) Scrapy爬虫入门教程七 Item Loaders(项目加载器) S...转载 2018-07-17 17:14:37 · 789 阅读 · 0 评论 -
Scrapy爬虫入门教程六 Items(项目)
Scrapy爬虫入门教程一 安装和基本使用 Scrapy爬虫入门教程二 官方提供Demo Scrapy爬虫入门教程三 命令行工具介绍和示例 Scrapy爬虫入门教程四 Spider(爬虫) Scrapy爬虫入门教程五 Selectors(选择器) Scrapy爬虫入门教程六 Items(项目) Scrapy爬虫入门教程七 Item Loaders(项目加载器) S...转载 2018-07-17 17:14:28 · 1749 阅读 · 0 评论 -
Scrapy爬虫入门教程五 Selectors(选择器)
Scrapy爬虫入门教程一 安装和基本使用 Scrapy爬虫入门教程二 官方提供Demo Scrapy爬虫入门教程三 命令行工具介绍和示例 Scrapy爬虫入门教程四 Spider(爬虫) Scrapy爬虫入门教程五 Selectors(选择器) Scrapy爬虫入门教程六 Items(项目) Scrapy爬虫入门教程七 Item Loaders(项目加载器) S...转载 2018-07-17 17:14:17 · 1036 阅读 · 0 评论 -
Python3 --- 爬虫之Handler处理器和自定义Opener
aaaa原创 2018-07-10 15:19:01 · 4250 阅读 · 1 评论 -
Python3 --- Scrapy安装
安装方式一:如果使用的是PyCharm则File-->Settings-->Project Interpreter,选择绿色加号搜索Scrapy安装即可,如下图:这里需要注意Manage Repositories可以配置成: https://pypi.douban.com/simple/ http://mirrors.aliyun.com/pypi/simple/...原创 2018-07-16 14:35:21 · 660 阅读 · 0 评论 -
Python3 --- 正则表达式
一、正则表达式匹配模式模式描述^匹配字符串的开头$匹配字符串的末尾。.匹配任意字符,除了换行符,当re.DOTALL标记被指定时,则可以匹配包括换行符的任意字符。[...]用来表示一组字符,单独列出:[amk] 匹配 'a','m'或'k'[^...]不在[]中的字符:[^abc] 匹配除了a,b,c之外的字符。re*匹配0个或多个的表达式。re+匹配1个或多个的表达式。re?匹配0个或1个由前面...原创 2018-07-10 15:18:51 · 509 阅读 · 0 评论 -
Python3 --- 爬虫之处理数据
一、通过正则表达式re处理数据正则表达式规则详见:Python3 --- 正则表达式from urllib import request,parseimport reclass Spider: def __init__(self): # 初始化起始页位置 self.page = 1 # 爬取开关,如果为True继续爬取 ...原创 2018-07-19 14:07:26 · 596 阅读 · 0 评论 -
Python3 --- Scrapy入门
Scrapy的安装请参见:Python3 --- Scrapy安装 目录一、Scrapy架构图1.1、组件介绍:1.2、执行流程:二、创建Scrapy项目三、创建Scrapy爬虫四、Scrapy入门案例五、Scrapy图片下载示例六 、CrawlSpider深度爬虫示例 一、Scrapy架构图1.1、组件介绍:Scrapy Engine(...原创 2018-07-17 17:13:32 · 1359 阅读 · 1 评论 -
Scrapy爬虫入门教程一 安装和基本使用
Scrapy爬虫入门教程一 安装和基本使用 Scrapy爬虫入门教程二 官方提供Demo Scrapy爬虫入门教程三 命令行工具介绍和示例 Scrapy爬虫入门教程四 Spider(爬虫) Scrapy爬虫入门教程五 Selectors(选择器) Scrapy爬虫入门教程六 Items(项目) Scrapy爬虫入门教程七 Item Loaders(项目加载器) S...转载 2018-07-17 17:13:42 · 695 阅读 · 0 评论 -
Scrapy爬虫入门教程二 官方提供Demo
Scrapy爬虫入门教程一 安装和基本使用 Scrapy爬虫入门教程二 官方提供Demo Scrapy爬虫入门教程三 命令行工具介绍和示例 Scrapy爬虫入门教程四 Spider(爬虫) Scrapy爬虫入门教程五 Selectors(选择器) Scrapy爬虫入门教程六 Items(项目) Scrapy爬虫入门教程七 Item Loaders(项目加载器) S...转载 2018-07-17 17:13:51 · 854 阅读 · 0 评论 -
Scrapy爬虫入门教程三 命令行工具介绍和示例
Scrapy爬虫入门教程一 安装和基本使用 Scrapy爬虫入门教程二 官方提供Demo Scrapy爬虫入门教程三 命令行工具介绍和示例 Scrapy爬虫入门教程四 Spider(爬虫) Scrapy爬虫入门教程五 Selectors(选择器) Scrapy爬虫入门教程六 Items(项目) Scrapy爬虫入门教程七 Item Loaders(项目加载器) S...转载 2018-07-17 17:13:59 · 1292 阅读 · 0 评论 -
Scrapy爬虫入门教程四 Spider(爬虫)
Scrapy爬虫入门教程一 安装和基本使用 Scrapy爬虫入门教程二 官方提供Demo Scrapy爬虫入门教程三 命令行工具介绍和示例 Scrapy爬虫入门教程四 Spider(爬虫) Scrapy爬虫入门教程五 Selectors(选择器) Scrapy爬虫入门教程六 Items(项目) Scrapy爬虫入门教程七 Item Loaders(项目加载器) S...转载 2018-07-17 17:14:07 · 2026 阅读 · 0 评论