成功抓取douban 所有电影

最新推荐文章于 2024-12-24 13:24:26 发布

weixin_30919919

最新推荐文章于 2024-12-24 13:24:26 发布

阅读量178

点赞数

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/elesos/p/7940907.html

之前爬了250，想爬所有的电影

Rule(LinkExtractor( allow =( r'https://movie.douban.com/subject/\d+' )) , callback = "parse_item" ) ,

修改为

start_urls = [ "https://movie.douban.com/subject/26611090/" ]

rules = [

Rule(LinkExtractor( allow =( r'https://movie.douban.com/subject/\d+' ) , restrict_xpaths = '//*[@id="recommendations"]/div' ) ,

callback = "parse_item" , follow = True ) ,

]

提取喜欢这部电影的人也喜欢推荐的10部电影，这样应该不会出现太多电视剧。

问题：

https://movie.douban.com/subject/2074813 这种页面没有评分

https://movie.douban.com/subject/1292945

解决，插入库之前判断。如果数据不符合格式，可传默认值0分等。或丢弃

1，如果存在了，就更新下分数和投票数据

最后爬到 https://movie.douban.com/subject/2127013 共 41924 行

2017-11-15 11:30:56 ERROR:Item 404:https://movie.douban.com/subject/2970103/?from=subject-page

转载于:https://www.cnblogs.com/elesos/p/7940907.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_30919919

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

用Python爬虫抓取电影信息并制作数据库：从数据抓取到应用的完整流程

2201_76125261的博客

01-19

514

在本篇博客中，我们将深入探讨如何使用Python爬虫抓取电影信息，并将这些数据存储到数据库中进行后续分析和应用。我们将展示从网页抓取电影数据的流程，如何将这些数据清洗并存储到数据库，以及如何基于这些数据进行分析和展示。在本篇博客中，我们详细介绍了如何使用Python爬虫抓取电影信息，并将数据存储到数据库中。我们还展示了如何进行数据清洗、处理、分析，并介绍了一个简单的电影推荐系统的实现方法。比如，可以基于电影的评分和类型进行推荐。，每一页展示50部电影的详细信息，我们可以通过翻页来抓取更多电影数据。

Python 爬虫实现：抓取电影网站信息并入库

热门推荐

盛夏温暖流年

09-22

2万+

文章目录一.环境搭建1.下载安装包2.修改环境变量3.安装依赖模块二.代码开发三.运行测试1.新建电影信息表2.代码运行四.问题排查和修复1.空白字符报错2.请求报错一.环境搭建 1.下载安装包访问 Python官网下载地址：https://www.python.org/downloads// 下载适合自己系统的安装包：我用的是 Windows 环境，所以直接下的 exe 包进行安装。下载后，双击下载包，进入 Python 安装向导，安装非常简单，你只需要使用默认的设置一直点击"下一步"直到安

参与评论您还未登录，请先登录后发表或查看评论

爬取豆瓣https://movie.douban.com/top250，翻页，图片

KAIXINXIAOGUAI的博客

03-11

6985

如何爬取豆瓣https://movie.douban.com/top250 操作步骤加思考： ①所需要的模块 import requests from lxml import etree # pandas用来保存为csv的 import pandas as pd # os所需的文件夹的下载 import os # 获取其页面代码 ②获取页面代码，因为豆瓣有反爬虫，加上headers def ge...

http://movie.douban.com/doulist/14155490/

kuiwen924的专栏

11-01

551

http://movie.douban.com/doulist/14155490/

爬取豆瓣电影TOP250的所有电影名称，网址为：https://movie.douban.com/top250

weixin_33719619的博客

12-10

7980

2019独角兽企业重金招聘Python工程师标准>>> ...

抓取豆瓣电影top250 https://movie.douban.com/top250 中的电影图片，并保存到文件夹picture中。

qq_45691937的博客

06-09

916

抓取豆瓣电影top250 https://movie.douban.com/top250 中的电影图片，并保存到文件夹picture中。 import requests from bs4 import BeautifulSoup import lxml def get(url): try: user_agent="Mozilla/5.0(compatible;MSIE 9.0;Windows NT 6.1;Trident/5.0;)" headers={"User-

爬虫04:利用requests实现豆瓣top250电影信息的抓取

qq_37587269的博客

11-22

2218

首先给出自己编写的源代码以及对应的运行结果（翻页抓取两页），最后对代码以及网页结构逐次分析。

关于豆瓣电影数据抓取以及可视化

m0_66993332的博客

04-24

760

豆瓣top250数据获取

用 Python 构建一个简单的爬虫：抓取豆瓣电影信息

一名热衷于技术的全栈开发者，专注于前端与后端的全面技术探索。在这里，我将分享我在技术领域的学习与成长，助力更多开发者的进步。

12-24

1946

访问豆瓣电影 Top 250 页面抓取每部电影的名称、评分、评论人数、导演信息等将抓取到的信息保存到 CSV 文件中通过本项目，你学会了如何使用 Python 构建一个基本的爬虫，抓取网页内容并保存到文件中。这个爬虫可以进一步优化和扩展，比如支持断点续传、动态页面处理等功能。快动手试试吧！

豆瓣爬虫日志（一）：豆瓣电影url类型

weixin_30394333的博客

08-18

666

豆瓣电影主页上爬到了如下url： href=""http://movie.douban.com/subject/26289144/?from=showing"" href=""http://movie.douban.com/subject/26289144/?from=showing"" href=""h...

python爬虫爬取豆瓣T250片单（re、bs4、xlwt、urllib）

2401_87857077的博客

10-13

987

源码以及excel文件：https://pan.quark.cn/s/73f1c6f21026。

豆瓣电影简单评分模型-从收集数据到建模分析

人生是一场修行

06-12

1万+

思路：从豆瓣上抓取数据【主要是评分，只是那个人数的百分比和最终评分，不过够用了】一、收集数据起始URL：https://movie.douban.com/j/new_search_subjects?sort=U&range=0,10&tags=&start=0 【注，爬取的对象是使用ajax传输数据的，就是传输json字符串的那种啦，学过一点web基础，但不是很懂，别...

爬虫实战-手把手教你爬豆瓣电影 | 附详细源码和讲解

JBIB ENGINE

11-28

7101

目前为止，你应该已经了解爬虫的三个基本小节：xiaqo.com正文明确需求我们今天要爬的数据是豆瓣电影Top250，是的，只有250条数据，你没猜错。输入网址我们可以看到网页长这样：编辑编辑`250条数据`清清楚楚，没有问题。可以看到，这个页面其实已经包含了影片的主要内容：影片名、排序、编剧、主演、年份、类型、评论人数、评分，基本上都在这个页面中。但我点开详细影片之后，发现了这个：编辑似乎这个页面数据更全一些，我们爬数据要的是什么，肯定是数据越多越好啊。

豆瓣电影Python爬虫（ajax动态加载，详细过程附源码）

ksksksj的博客

08-08

2208

豆瓣电影排行榜python爬虫(详细过程附源码)

豆瓣影视接口

robin_sky的博客

12-06

1992

https://movie.douban.com/j/search_subjects?type=movie&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=100&page_start=0 其中的tags和sort可以参考https://movie.douban.com/explore#!type=movie&tag=%E7%83%AD%E9%97%A8&sort=recommend&page..

scrapy爬取豆瓣所有电影信息（新手入门超详细版）

青山的博客

08-14

1万+

本次小实验目标就是爬取豆瓣所有的电影，我们以豆瓣的分类页（https://movie.douban.com/tag/#/）作为start_urls，首要任务就是分析当前页面是否为动态加载，何为js动态加载页面可以百度一下~这里推荐一个小chrome插件—Toggle JavaScript插件，这个插件的功能就是方便地开启和关闭chrome的javascript功能。使用也很方便，点一下关闭，再点一...

爬取豆瓣电影所有类型的电影信息

dreambyday

10-20

3719

import urllib.request from urllib.parse import quote import json import http.cookiejar import time import math import random import pandas as pd from lxml import etree import csv headers={ "User...

爬取豆瓣电影

qq_30235073的博客

04-18

986

爬取步骤：# 1、#找到url地址 # url = "https://movie.douban.com/j/search_subjects?type=movie&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=20&page_start=0" # 2、解析URL，得到网页源码 # 3、从网页源代码里提取数据 ...

Python爬虫考试 -- 豆瓣电影明星图片抓取：已知豆瓣电影链接如下：https://movie.douban.com/

最新发布

12-29

### 使用 Python 编写爬虫抓取豆瓣电影明星图片为了实现这一目标，可以采用 `requests` 和 `BeautifulSoup` 库来处理网页请求和解析 HTML 文档。需要注意的是，在实际操作前应当阅读并遵守网站的服务条款以及 robots.txt 文件中的规定[^1]。 #### 安装所需库首先安装必要的第三方库： ```bash pip install requests beautifulsoup4 lxml ``` #### 导入模块与设置头部信息导入所需的 Python 模块，并模拟浏览器访问行为以提高成功率： ```python import os from urllib.request import urlretrieve import requests from bs4 import BeautifulSoup headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 \ (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36' } ``` #### 获取页面内容定义函数用于发送 HTTP 请求获取指定 URL 的响应数据： ```python def get_page(url): try: response = requests.get(url=url, headers=headers) if response.status_code == 200: return response.text else: print(f'Failed to load page {url}') return None except Exception as e: print(e) return None ``` #### 解析HTML文档提取图片链接创建一个新的方法用来分析返回的内容找到所有的演员头像URL地址： ```python def parse_html(html_content): soup = BeautifulSoup(html_content,'lxml') items = soup.find_all('div', class_='item')[:10] image_urls = [] for item in items: img_tag = item.select_one('.pic a img')['src'] image_urls.append(img_tag) return image_urls ``` #### 下载图片保存到本地文件夹最后一步就是遍历上述获得的列表下载每一张照片存储至特定目录下： ```python def download_images(image_links, save_path='./images'): if not os.path.exists(save_path): os.makedirs(save_path) for index, link in enumerate(image_links): filename = f'{save_path}/actor_{index}.jpg' urlretrieve(link,filename=filename) print(f'Downloaded: {link} -> {filename}') if __name__ == '__main__': target_url = "https://movie.douban.com/" html_data = get_page(target_url) if html_data is not None: images_list = parse_html(html_data) download_images(images_list) ``` 此段脚本实现了从给定的目标网址开始，自动查找并下载前十位演员的照片。当然这只是一个简单的例子，真实环境中可能还需要考虑更多因素比如异常情况下的重试机制、多线程加速下载速度等优化措施。