Python爬虫
爬虫项目仅供个人学习使用
xsping.com
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Scrapy爬取ajax加载页面且post提交参数是Request Payload的方法
1. 怎么发起请求 scrapy.FormRequest()目前还不支持Payload参数提交方法 可以采用request的post方式: scrapy.Request(url, headers=headers, body=json.dumps(payload_data), callback=self.parse, method='POST') json.dumps():将dict格式转化成str格式 2. Response 返回来的一般是json数据格式,或者列表形式,亦或者数据中插入了一些字符,比如:原创 2021-03-12 15:05:11 · 574 阅读 · 0 评论 -
采用scrapy对秀动网演出信息爬取
爬取结果 mongodb数据库: spider文件 分析秀动网站页面的布局,准备爬取我们需要的信息。 没有粘贴代码,简单讲解一下爬取上海所有的演出信息。 parse方法里面定义 页面演出信息的列表: datas = response.xpath("/html/body/div[4]/ul/li") 循环遍历这个列表,可以取到我们需要的剧目名称和详情页的url item['show_name'] = data.xpath('a/@title').extract()[0] url = data.xpath(原创 2021-03-08 14:56:35 · 1311 阅读 · 8 评论 -
通过scrapy爬取前程无忧招聘数据
创建项目: scrapy startproject ScrapyDemo cd ScrapyDemo scrapy genspider bigqcwy msearch.51job.com items.py文件添加爬取信息: class ScrapydemoItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() # 职位名称 name = scrapy.Fi原创 2021-01-24 15:20:44 · 917 阅读 · 0 评论 -
通过selenium爬取新浪微博
from selenium import webdriver from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.common.action_chains import ActionChains import csv import PIL.Image as image from PIL import Image, ImageEnhance import time, re, random import原创 2021-01-24 15:04:18 · 441 阅读 · 0 评论 -
scrapy_redis分布式爬虫与scrapyd部署爬虫
仅供个人学习,如有侵权联系删除 spider文件: # -*- coding: utf-8 -*- """ scrapy_redis实现分布式爬虫 scrapyd部署 """ import scrapy from pachong8.items import Pachong8Item from scrapy_redis.spiders import RedisCrawlSpider class LianjiaSpider(scrapy.Spider): #class LianjiaSpider(Redis原创 2021-01-23 17:34:05 · 352 阅读 · 0 评论 -
使用Scrapy框架爬取链家数据
仅供个人学习,如有侵权联系删除 spider文件:lianjia.py # -*- coding: utf-8 -*- import scrapy from pachong6.items import Pachong6Item class LianjiaSpider(scrapy.Spider): name = 'lianjia' allowed_domains = ['m.lianjia.com'] start_urls = ['https://m.lianjia.com/bj/原创 2021-01-23 17:04:10 · 537 阅读 · 2 评论 -
Scrapy爬取知乎数据并用scrapy_redis搭建分布式
知乎网站分析 1、个人资料页面url为:https://www.zhihu.com/people/… 2、分析出需要爬取内容的xpath 创建爬虫 使用crawl模板生成spider scrapy startproject pachong7 cd zhihu scrapy genspider -t crawl zhihu zhihu.com 源码 仅供个人学习使用,禁止爬取个人隐私、商业信息等 items.py 定义需要爬取的字段 # -*- coding: utf-8 -*- import scrapy原创 2021-01-23 16:14:56 · 319 阅读 · 1 评论
分享