爬虫第六课---scrapy（二）案例2，爬取腾讯招聘

韩淼燃

于 2019-04-21 15:43:23 发布

阅读量389

点赞数

CC 4.0 BY-SA版权

分类专栏： python怕虫项目课程

本文链接：https://blog.youkuaiyun.com/weixin_36691991/article/details/89433809

python怕虫项目课程专栏收录该内容

18 篇文章 ¥39.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍如何使用Scrapy爬虫框架爬取腾讯招聘网站的数据，讲解了如何在不同页面间传递数据以及优化文件写入的pipeline方法，以提高爬虫性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

'''
1.
shell对象和selector对象
scrapy shell就是一个交互式的终端
作用：可以很好的调试
启动：scrapy shell url

如果url有参数，用引号把url包起来

2.选择器
selector
xpath
extract：返回unicode字符串
css
re
'''

废话不多说，直接上代码，然后解释。

spider代码

# -*- coding: utf-8 -*-
import scrapy
from ..items import TencentItem


class TencentSpider(scrapy.Spider):
    name = 'tencent'
    # allowed_domains = ['https://hr.tencent.com/position.php?&start=0#a']
    start_urls = ['https://hr.tencent.com/position.php?&start=0#a']
    base_url = 'https://hr.tencent.com/'

    def parse(self, response):
        n