
spider
zhang_Ming_lu
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
python 爬虫基本组成
基本组成爬虫通常分为数据采集(网页下载)、数据处理(网页解析)和数据存储(有用的信息持久化)三个部分。工作流程:设定抓取目标(种子页面/起始页面)并获取网页。当服务器无法访问时,按照指定的重试次数尝试重新下载页面。在需要的时候设置用户代理或隐藏真实IP,否则可能无法访问页面。对获取的页面进行必要的解码操作然后抓取出需要的信息。在获取的页面中通过某种方式(如正则表达式)抽取出页面中的链接信息。对链接...原创 2018-07-14 22:05:30 · 43546 阅读 · 0 评论 -
beautifulSoup实用基本用法
beautifulSoup安装包pip install beautifulsoup4导入包form bs4 import BeautifulSoup1. 基本用法beautifulSoup得到的是一个 bsObj 我们可以在它的基础上进行获取我们需要的信息 from urllib.request import urlopen from bs4 import Beaut...原创 2018-07-14 22:11:24 · 45391 阅读 · 0 评论 -
Scrapy-redis实现分布式爬虫的要点
分布式爬虫的要点 核心配置: 将调度器的类和去重列表的类替换为 Scrapy-redis 提供的类,在settings.py添加如下设置 # 配置连接Redis REDIS_HOST = REDIS_PORT = REDIS_PASSWORD = # 连接mongodb MONGO_URI = 'mongodb://user:password@127...原创 2018-08-07 19:45:54 · 42308 阅读 · 0 评论 -
Scrapy通用爬虫
通用爬虫 主要时通过继承 CrawlSpider, 定义一些爬去的规则来实现页面的提取 CrawlSpider 它继承自 Spider 类,除了spider的所有方法和属性之外,它还提供了几个特殊的属性 rules 爬取的规则,包含一个或者多个Rule的对象的列表,每个 Rule 对爬取网站的动作都做了定义 parse_start_url 它时一个可以重写的方法,当s...原创 2018-08-07 19:47:01 · 42479 阅读 · 0 评论