【py/pyspider抓取】进行简单的静态网页抓取

本文介绍了如何使用Python脚本和PySpider库来抓取优快云博客上的文章标题和正文内容,通过解析HTML文档,提取所需信息并保存到文件中。同时,对比了Python脚本与PySpider在实现复杂抓取任务时的差异与优势。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

前言

python脚本写了一段时间之后,大致理解了python抓取的一些简单用法,也尝试着对一些大站点进行了抓取

于是觉得,咱来试着用用看既有的平台吧……


话说回来,python的话是这样的

#-*- coding: gbk -*-

from bs4 import BeautifulSoup
import urllib2
import sys
import logging 
import json

Log = "./log/Log.txt"
Data =  "./data/text.txt"

logger=logging.getLogger()
handler=logging.FileHandler(Log)
logger.addHandler(handler)
logger.setLevel(logging.NOTSET)

reload(sys)
sys.setdefaultencoding('utf-8')

UrlHead = "http://blog.youkuaiyun.com"
MainUrl = "http://blog.youkuaiyun.com/okcd00/article/list/pagesites"


def GetDesc(pagesite) :
    value = "NULL"
    headers = {'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'} 
    req = urllib2.Request(url = pagesite, headers = headers)
    #print "%s\t" % (req)
    try :
        html_doc = urllib2.urlopen(req)
    except :
        logger.info("[ERROR]:" + pagesite)
        return value
    soup = BeautifulSoup(html_doc)
    #print "I'm going to get Maintext\n"
    for link in soup.find_all('div') :
        if link.get('class') and link.get('class')[0] == 'article_content' :
            value = link.get_text().replace('\t','').replace('\r','').replace('\n','').replace('\b','').encode('utf-8')
    return value

    
def GetNext(html_doc) :
    value = []
    soup = BeautifulSoup(html_doc)
    #print "I'm going to find hrefs\n"
    for link in soup.find_all('h1') :
        if link.find('a') :
            value.append(link.a['href'])
            #print "%s\n%s\n" % (link.a.string,link.a['href'])
    return value  

	
def MergeUrl(link) :
    try:
        mid = link
        pagesite = UrlHead + mid
        #print "now go to the url: %s" % pagesite
    except:
        logger.info("[ERROR]:" + link)
        return "NULL"
    #print "Now I'm going to request %s \n" % pagesite
    return pagesite


def GetContent(soup) :
    for link in soup :
        #print link
        pagesite, value = "", ""
        if MergeUrl(link) != "NULL":
            pagesite = MergeUrl(link)
            #print "Now getting Desc\n"
            value = GetDesc(pagesite)
            #f.write("%s\t%s\t%s\n" % (link['title'], pagesite, value))
            f = open(Data,'a')
            f.write("%s\t%s\n" % (pagesite, value))
            f.close()
        else:
            print "%s\t Nothing here\n" % pagesite 

		
def GetMainUrl(pagesite) :
    headers = {'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'} 
    try:
        req = urllib2.Request(url = pagesite, headers = headers)
        #print "%s\t" % (req)
        html_doc = urllib2.urlopen(req)
        #print "%s\t" % (html_doc)
        #the_page = html_doc.read()
        #print "%s\t" % (the_page)
    except:
        logger.info("[ERROR]:" + pagesite)
        return -1
    url_list = GetNext(html_doc)
    GetContent(url_list)
    return 0

	
if __name__ == '__main__' :
    for i in xrange(1,10) :
        ret = 0
        url = MainUrl.replace("pagesites", str(i))
        ret = GetMainUrl(url)
        if ret == -1 :
            print "no return at %s : %s" % (i,url)
            continue


python的话由于可读性强,所以多看看别人的程序和代码是提高的关键。

这个代码是我最早版的抓取(毕竟是在实习,第二版起的代码抓大站的和增量轮询什么的就不放啦),写的是抓取视图下文章标题的超链接,并抓取链之后的文章正文,以‘\t’分割开。

关于实现,并没有使用过多的麻烦的东西,基础操作的话可以在上一篇文章中理解,不同的点在于,这里使用了bs4库,这是一个可以将拖回来的html代码通过bs4自带的函数来筛选所需要行的库。

soup = BeautifulSoup(html_doc)
    #print "I'm going to get Maintext\n"
    for link in soup.find_all('div') :
        if link.get('class') and link.get('class')[0] == 'article_content' :
            value = link.get_text().replace('\t','').replace('\r','').replace('\n','').replace('\b','').encode('utf-8')
    return value
比如这一段就是新建bs4对象,然后通过soup.findall('<这里是想要找的关键字>'),来获得所需的行,当然,为了防止传回空值,请记住做try/except哦~

自然不仅仅如此,还可以实现非常多的功能,我已经可以抓取十一列相关数据而且增量轮询抓取了哈哈哈,在这里就不一一展示了。


于是,试试看Pyspider吧

#!/usr/bin/env python
# -*- encoding: utf-8 -*-
# Created on 2015-08-25 11:24:45
# Project: Try_csdnBlo

from pyspider.libs.base_handler import *


class Handler(BaseHandler):
    crawl_config = {
    }

    @every(minutes=24 * 60)
    def on_start(self):
        self.crawl('http://blog.youkuaiyun.com/okcd00',callback=self.index_page)

    @config(age=10 * 24 * 60 * 60)
    def index_page(self, response):
        for each in response.doc('h1 a').items():
            self.crawl(each.attr.href, callback=self.detail_page)
        for nxt in response.doc('.pagelist > a').items():
            if nxt.text() == "下一页" :
                self.crawl(nxt.attr.href, callback=self.index_page)
            
    
    @config(priority=2)
    def detail_page(self, response):
        return {
            "url": response.url,
            "title": response.doc('h1 a').text(),
            "text": response.doc('.article_content').text(),
        }



关于pyspider,使用的是pyQuery语言,可读性也非常强,有个QuickGuide非常的棒,这是它的文档,可以通过这个入门。

什么你跟我说你看不懂英文?T^T,唉,为什么我就是个这么好的人呢……呐,中文版的文档拿去。


那么pyspider该怎么用呢

简单的说起来就是——

先把想要抓取的主网页放在on_start(self)的url参数区

def on_start(self):
    # self.crawl(url, callback=self.index_page)* 
    # is the most important API here. It will add a new task to be crawled.
        self.crawl('http://cdisagoodperson.com/', callback=self.index_page)


然后在左边点击run,跑起来获得主页面地址,然后点击web就可以和浏览器里一样看到这个页面


点击enable css selector helper,右上角就会出现上图右上角的那个东西,左按钮是复制,右按钮是把你选中的那个元素直接贴到你光标所在的位置



模仿给出的函数写出你自己的函数,你中间想叠加几层就写几个,注意传参的时候传你自己的函数名。

@config(age=10 * 24 * 60 * 60)
    # def index_page(self, response) get a Response* object. 
    # response.doc* is a pyquery object which has jQuery-like API 
    # to select elements to be extracted.
    def index_page(self, response):
        for each in response.doc('a[href^="http"]').items():
            self.crawl(each.attr.href, callback=self.detail_page)

    @config(priority=2)
    # def detail_page(self, response) return a dict object as result. 
    # The result will be captured into resultdb by default. 
    # You can override on_result(self, result) method to manage the result yourself.
    def detail_page(self, response):
        return {
            "url": response.url,
            "title": response.doc('title').text(),
        }


代码写好没错之后就去Dashboard,把这个任务的属性改成RUNNING,按右边的RUN即可



可以通过Result查看结果,点按Action Tasks可以查看日志:


<think>好的,我现在需要帮用户查找关于pyspider的教程和使用指南。用户之前已经问过这个问题,我之前给出了一个回答,现在用户可能希望得到更详细的信息或者补充内容。首先,我需要回顾之前提供的引用内容,确保这次回答更全面,同时避免重复。 首先,查看用户提供的四个引用。引用1是项目地址,引用2和3是关于pyspider的功能介绍和分布式部署,引用4提到了调试方法和相关技术。之前的回答可能已经覆盖了基础教程、安装步骤、项目结构、调试技巧以及分布式部署。现在需要补充其他可能的方面,比如高级功能、实战案例、常见问题解决等。 用户可能需要具体的教程链接或者更详细的步骤说明。比如,如何配置消息队列,如何处理JavaScript渲染的问题,或者如何与数据库交互存储数据。此外,可能还需要包括如何处理反爬机制,或者使用pyquery进行数据解析的具体例子。 另外,引用4中提到了修改日志级别的方法,这可能在调试时有用,可以详细说明如何操作。同时,引用3中的分布式部署命令示例可以进一步解释,让用户了解如何实际执行。 还要注意用户提到的“开发指南”,可能需要包括项目结构的最佳实践,如何编写可维护的爬虫代码,以及如何扩展pyspider的功能。此外,可能还需要推荐一些社区资源或进阶教程,帮助用户深入学习。 需要确保回答结构清晰,分步骤说明,并且每个部分都有实际的操作示例或代码片段,这样用户能跟着操作。同时,要检查是否有遗漏的重要功能,比如定时任务、自动重试机制等,这些在引用2和3中都有提及,应该详细展开。 最后,生成的相关问题需要围绕用户可能遇到的后续疑问,比如性能优化、错误处理、与其他工具集成等,这样能帮助用户进一步探索pyspider的高级用法。</think>以下是为您整理的pyspider开发指南与技术要点,结合官方文档和实战经验梳理: ### 一、基础环境搭建 1. 安装建议使用Python3.6+: ```bash pip install pyspider ``` 2. 启动命令包含多个组件: ```bash pyspider all --queue-maxsize=5000 # 增加任务队列容量 ``` ### 二、项目结构规范 ```python class Handler(BaseHandler): crawl_config = { 'headers': {'User-Agent': 'Mozilla/5.0'}, 'proxy': 'http://127.0.0.1:8080' } def on_start(self): self.crawl('http://example.com', callback=self.index_page) @config(age=60*60) # 设置页面缓存时间 def index_page(self, response): return [{ "title": response.doc('h1').text(), "url": response.url }] ``` ### 三、高级功能实现 1. **分布式部署**(需安装RabbitMQ): ```bash # 调度节点 pyspider scheduler --message-queue=amqp://user:pass@host/vhost # 抓取节点 pyspider fetcher --message-queue=amqp://user:pass@host/vhost ``` 2. **JavaScript渲染**: ```python self.crawl('http://dynamic.site', fetch_type='js', # 启用PhantomJS渲染 js_script=''' function() { window.scrollTo(0, document.body.scrollHeight); }''') ``` ### 四、数据存储方案 MySQL存储示例: ```python from pyspider.database.mysql import MySQL def on_result(self, result): db = MySQL(host='localhost', user='root', passwd='', db='scrapy_db') db.insert('articles', **result) ``` ### 五、调试技巧 1. 日志调试(修改logging.conf): ```ini [logger_root] level = DEBUG # 修改日志级别 [handler_console] formatter = color args = (sys.stderr,) ``` 2. 使用WebUI实时监控(默认端口5000): ```bash pyspider -c config.json webui # 自定义配置文件 ``` 官方推荐学习资源: - [官方文档](http://docs.pyspider.org/) - [GitHub案例库](https://gitcode.com/gh_mirrors/py/pyspider/tree/master/examples)[^1]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

糖果天王

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值