[学习笔记] 在ubuntu系统下使用scrapy爬虫框架进行爬虫

本文档记录了在Ubuntu系统中配置Python虚拟环境并使用Scrapy爬虫框架的过程。首先,介绍了如何创建虚拟环境和爬虫项目。接着,详细讲述了编写爬虫文件,包括设置数据库连接以存储爬取数据,以及创建main.py来管理项目启动。最后,实际运行爬虫,抓取和存储数据。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.系统环境的配置

  • 首先进行python虚拟环境的安装
sudo apt install python3-pip python3-dev build-essential
sudo python3 -m pip3 install --upgrade pip
sudo pip3 install virtualenvwrapper
  • 创建专门用于存放虚拟环境的目录
mkdir /var/www/EnvRoot
# 修改 .zshrc 文件,添加一下代码
export WORKON_HOME =/var/www/EnvRoot
export VIRTUALENVWRAPPER_PYTHON =/usr/bin/python3
source /usr/local/bin/virtualenvwrapper.sh
# 重新运行.zshrc文件
source ~/.zshrc
  • 创建一个虚拟环境和创建一个爬虫项目
mkvirtualenv scrapy
# 该虚拟卡环境专门用户scrapy爬虫框架的使用
# 安装scrapy爬虫框架
pip install scrapy
# 创建scrapy项目
scrapy startproject douban

2.爬虫文件的编写

  • 编辑爬虫文件以及数据库连接存储文件,将爬取到的数据存到数据库中,后期可以利用这些数据进行一些数据分析
cd douban
vim spiders/douban.py
# douban.py
import scrapy
import re
from bs4 import BeautifulSoup
from douban.items import DoubanItem

class DbSpider(scrapy.Spider):
    name ='douban'
    allowed_domains = ["douban.com"]
    start_urls =["https://www.douban.com/doulist/43430373"]
   
    def parse(self,response):
        item = DoubanItem()
        response.encding='utf-8'
        soup = BeautifulSoup(response.text,'html.parser')
        books= soup.select('.doulist-item')
        selector = scrapy.Selector(response)
        for book in books:
            if len(book.select('.title a'))>0:
                title =book.select('.title a')[0].text
                rate =book.select('.rating span')[1].text
                score =book.select('.rating span')[2].text.lstrip('(').strip('人评价)')#使用beautifulsoup的strip去掉不需要的内容
                author =book.select('.abstract')[0]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值