从零开始学爬虫（爬取豆瓣），一看就会

最新推荐文章于 2024-10-17 19:17:50 发布

原创

最新推荐文章于 2024-10-17 19:17:50 发布 · 2.3k 阅读

23 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫

本文介绍了一个Python爬虫项目，旨在抓取豆瓣电影Top250的详细信息，包括影片链接、海报、中文名、外文名、评分、评价人数等，并将数据保存至Excel表格。

从零开始写爬虫，豆瓣影片的爬取

一、准备工作

语言：python
编辑器：pycharm
需要导的包：bs4、re、urllib、xlwt（可以通过左上角file->settings->project->interpreter->右边加号导包）
爬虫就是编写程序模拟浏览器打开网页获取需要的内容
在这里插入图片描述

二、构建流程

from bs4 import BeautifulSoup #网站解析，获取数据
import re #正则表达式
import urllib.request,urllib.error #指定url
import xlwt #excel操作
import sqlite3 #数据库操作
def main():
    baseurl = "https://movie.douban.com/top250?start="
    #获取数据
    datalist = getData(baseurl)
    #保存文件
    savepath = ".\\豆瓣.xls"
    saveData(datalist, savepath)
    #askUrl(baseurl)
    pass

#获取爬取的网页数据
def getData(baseurl):
    datalist = []
	return datalist

#得到指定一个url的网页内容，后面会将urllib的使用
def askUrl(url):
    #用户代理  表明是什么类型的浏览器
    head = {
   
   
        "User-Agent":"Mozilla / 5.0(Windows NT 10.0;Win64;x64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 85.0.4183.102Safari / 537.36"
    }
    req = urllib.request.Request(url=url,headers=head)
    html = ''
    try:
        res = urllib.request.urlopen(req)
        html = res.read().decode('utf-8')
        return html
    except urllib.error.URLError as e:
        if hasattr(e,"code"):
            print(e.code)
            pass
        if hasattr(e,"reason"):
            print(e.reason)
            pass
    pass


#保存数据
def saveData(datalist, savepath):
	pass

main()

三、各种工具的使用

1、urllib的使用

urllib 是一个收集了多个涉及 URL 的模块的包：

urllib.request 打开和读取 URL

urllib.error 包含 urllib.request 抛出的异常

urllib.parse 用于解析 URL

urllib.robotparser 用于解析 robots.txt 文件

所以我们可以新建一个testUrllib.py文件，单独测试下urllib的使用

import urllib.request,urllib.error,urllib.parse
#首先定义一个url
url = "http://www.douban.com"
#设置header的user-agent原因是如果不设置，会显示user-agent:python-urllib，从而有时候爬取失败，所以要伪装成是用浏览器打开
headers = {
   
   
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.102 Safari/537.36"
}
#post 将传递的data数据包装起来
data = bytes(urllib.parse.urlencode({
   
   "hello":