request+正则表达式，爬取豆瓣电影top100

最新推荐文章于 2024-07-20 23:07:14 发布

qiushuidongshi

最新推荐文章于 2024-07-20 23:07:14 发布

阅读量925

点赞数

CC 4.0 BY-SA版权

分类专栏：爬虫

本文链接：https://blog.youkuaiyun.com/qiushuidongshi/article/details/81253885

爬虫专栏收录该内容

3 篇文章

订阅专栏

使用requests库结合正则表达式爬取豆瓣电影Top100信息，包括电影排名、名称、图片链接、演员、上映时间和评分，将数据保存到maoyan.txt文件中。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

import requests,re,json
from requests.exceptions import RequestException
from multiprocessing import Pool

def get_page_source(url):

headers={ "User-Agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko)Chrome/65.0.3325.181 Safari/537.36" }

try:
response=requests.get(url,headers=headers)

if response.status_code is 200:
return response.text

except RequestException:
return None

def pares_page_source(html):
pattern=re.compile('<dd>.?board-index.?>(\d+)</i>.?<a.?title="(.?)".?<img.?-src="(.?)".?="star">\n(.?)\n.?'
'releasetime">(.?)</p>.?integer">(.?)</i>.?fraction">(\d+).?</dd>',re.S)

result=re.findall(pattern,html)
for i in result:
yield{
"index":i[0],
"title": i[1],
"image":i[2],
"actor":i[3].strip(),
"time":i[4][5:],
"score":i[5]+i[6]
}

def write_to_txt(content):
with open("maoyan.txt","a",encoding="utf-8")as f:
f.write(json.dumps(content,ensure_ascii=False)+"\n")

def main(i):
url="http://www.maoyan.com/board/4?offset="+str(i)
html=get_page_source(url)
#print(type(html))
for i in pares_page_source(html):
write_to_txt(i)
print(i)

if name == 'main':
for i in range(10):
main(i*10)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

qiushuidongshi

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

requests库爬取豆瓣电影信息

qq_40298768的博客

09-12

994

使用requests和BeautifulSoup库爬取豆瓣电影https://movie.douban.com/相关信息 import requests from bs4 import BeautifulSoup import random import bs4 import functools my_headers = [ "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.

利用正则表达式获取豆瓣TOP250电影的英文名、港台名、导演、主演、上映年份、电影分类以及评分

m0_53547225的博客

10-11

3926

唐松编《python网络爬虫从入门到实践》第47页3.4.3自我实践题全部代码为原创代码完整代码如下： import requests import re headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.61 Safari/537.36' } info_lists = [] def

参与评论您还未登录，请先登录后发表或查看评论

爬虫学习之01-request模块爬取豆瓣电影

指尖魔法师

05-27

636

""" 获取豆ban电影中的电影:https://movie.****.com/ 代码仅供学习 date:2020-05-23 """ import requests if __name__ == '__main__': start = input('输入数字(从第几部电影开始取,0开始):') limit = input('输入数字(一次获取几部电影):') # 1.指定URL url = 'https://movie.****.com/j.

用正则爬取豆瓣电影排行榜

big_data_vicky的博客

09-30

1097

import requests import re import chardet url = "https://movie.douban.com/chart" headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 ...

request+正则表达式式爬取猫眼电影

三人行必有我师的博客

12-25

419

新建项目maoyantop100 在项目文件下新建爬虫文件spider.py，在里面输入： import json from multiprocessing import Pool import request from requests.exceptions import RequestException def get_one_page(url): try: re...

使用xpath，正则表达式爬取豆瓣top250电影信息

weixin_46539246的博客

08-09

3336

今天使用xpath爬取豆瓣电影top250的电影信息，使用了xpath，和正则表达式，最近学习爬虫感觉xpath是相对较简单一点的（相对于正则表达式），xpath有时候提取的数据不是自己全部需要的，所以配合着正则表达式一起用效果较好。今天爬取的网站是豆瓣电影top250（https://movie.douban.com/top250?start=0&filter=），进行翻页之后发现它的url变化情况它们在翻页时候，start一次变化25，我们可以使用range(0,226,25)获取到10

requests+正则表达式爬取豆瓣读书top250

懒懒的书虫

12-29

4373

简单的python联手项目，通过rquests库请求得到豆瓣top250网页源代码，并通过正则表达式匹配得到对应信息-书名，作者信息，评分以及简介。网站的URL为’https://book.douban.com/top250?start=0’,但我们拉到底部发现250本读书的信息被分成了10页，这就需要我们首先对URL的规律进行分析得到所有页面的URL信息传递给get（）方法中请求源代码。点击...

【python练习】爬取豆瓣电影Top250具体步骤

UnalomeCX330的博客

07-20

665

本文学习根据b站视频：BV1NX4y1X7AE 的P18，编写具体步骤只为学习时缕清思路。

Python爬虫篇二之利用re正则爬取豆瓣页面练习

XahY66的博客

07-04

6026

在我的爬虫一篇中，咱了解到了大概的爬虫思路，那么咱带着思路进一步研究爬虫技术今天我们要用到re这个模块，对爬取到的内容进行清洗，拿到具体想要的内容首先我们要了解re这个模块的功能，主要就是利用正则表达式，来提取内容 正则表达式是一个特殊的字符序列，它能帮助你方便的检查一个字符串是否与某种模式匹配。 Python 自1.5版本起增加了re 模块，它提供 Perl 风格的正则表达式模式。 re 模块使 Python 语言拥有全部的正则表达式功能。 compile 函数根据一个模式字符串和可选的标志参数生成一

一分钟学会python爬取豆瓣top250电影

m0_52067999的博客

09-06

799

一分钟python爬取豆瓣top250电影真想说：python的强大的库，各种库。啧啧啧。是一些语言不能比的。但是个人感觉如果是要写大型后端的话，python还是不太行的运行效果爬取网页话不多说，直接看代码（代码都有注释）获得数据可以先获取一个url的数据哦，对了，下面User-Agent是一个反爬操作。模拟成浏览器来进行访问豆瓣服务器解析数据定义正则表达式，进行数据的解析逐一解析数据保存数据将数据保存成xls文件由于本人比较菜，附上完整代码，欢迎各位大神指点。

豆瓣电影名称类别评分时长评论年份爬取主函数

10-10

豆瓣电影名称类别评分时长评论年份爬取主函数

Python爬取豆瓣网上电影信息

11-07

用Python爬虫从豆瓣电影的首页那一页中，爬取那页的电影名称，上映时间，国家，豆瓣评分，主演，然后再讲结果写到*.txt文件中

利用正则表达式爬豆瓣电影 TOP250

asdfqwersdv3we的博客

03-02

504

Datawhale爬虫第五期 Day2 正则表达式：http://www.runoob.com/regexp/regexp-tutorial.html import requests, re #豆瓣网会验证headers中User-Agent headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit...

python+request爬取电影网站

累兰羽的博客

04-01

3613

使用python+request进行电影网站的爬取今天我们爬取的网站是http://www.6vhao.com 项目链接GtiHub 实现功能：对不同分类下的电影进行爬取只留下百度网盘的下载链接 正则表达式的使用代码块主要代码 python import requests import lxml.html as html import re #将不同的电影分类放入列表...

Requests+正则表达式抓取豆瓣电影

Li_linyu的博客

08-06

1465

Python爬取豆瓣榜单Top250～Request，re

香自寒来

01-18

847

1**. urllib.request.urlopen(url)打开URL参数指定字符串或者Request对象类型的URL链接地址官方文档：https://docs.python.org/3/library/urllib.request.html 2. re.findall()...

python 爬虫 requests请求与正则表达式

Daybreak_Knight的博客

03-03

449

作业4 题目：爬取小说里面的每一章节，然后保存到本地文件。此次作业涉及到的内容包括request请求和正则表达式。废话不多说，直接上代码 # 首先导入说需要用到的库 import reuqests import re import os import time # 创建类 class Novelspider(): # 设置头部信息 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) App

request+正则表达式爬猫眼

AI蜗牛之家

09-11

943

import json import requests from requests.exceptions import RequestException import re import timedef get_one_page(url): try: response = requests.get(url) if response.status_code ==

Request模块（八）-- re模块及及正则表达式

想做测开的点工

03-14

858

1、re.match 2、re.search 3、re.findall 4、re.finditer 5、re.split 6、re.sub 7、正则表达式分组() 匹配括号内的表达式 8、常用的正则表达式模板：(.+?) 、[\s\S]

【Python项目】用Python爬取豆瓣电影top205数据，轻松实现数据可视化分析！Python豆瓣电影爬虫+数据可视化分析项目展示！源码可分享！

最新发布

05-11

### Python 实现豆瓣电影爬虫及数据可视化分析项目 #### 1. 系统概述基于Python的豆瓣电影爬虫及数据可视化分析系统是一个综合性的项目，它不仅涉及网络爬虫技术，还涵盖了数据分析、数据可视化以及推荐算法的设计。该系统通过爬取豆瓣网站上的电影评论和评分数据，经过清洗和处理后存储到数据库中，并利用Python的强大生态库（如`pandas`、`numpy`、`matplotlib`等）完成数据的统计分析与可视化展示[^1]。以下是该项目的核心组成部分： --- #### 2. 技术栈 - **爬虫部分** 使用`BeautifulSoup`进行HTML页面解析，提取所需的信息；借助正则表达式模块`re`实现精确的文字匹配；通过`urllib.request`发送HTTP请求并获取网页内容。此外，还可以引入第三方库如`selenium`来应对动态加载的内容[^3]。 - **数据存储** 将抓取到的数据保存至SQLite或其他关系型数据库中以便后续查询操作。例如，在代码片段中可以看到如何连接SQLITE数据库实例化对象[^3]: ```python conn = sqlite3.connect("douban_movies.db") # 创建或打开数据库文件 cursor = conn.cursor() # 获取游标用于执行SQL语句 ``` - **数据分析与可视化** 利用Pandas读取数据库表单作为DataFrame结构便于进一步计算加工；Matplotlib/Echarts绘制柱状图折线图饼图等形式表现不同维度下的分布特征。下面给出一段简单的绘图例子说明： ```python import pandas as pd import matplotlib.pyplot as plt df = pd.read_sql_query("SELECT * FROM movie_reviews", con=conn) # 加载数据集 ratings_distribution = df['rating'].value_counts().sort_index() plt.bar(ratings_distribution.index, ratings_distribution.values) plt.xlabel('Rating') plt.ylabel('Count') plt.title('Distribution of Movie Ratings on Douban') plt.show() ``` --- #### 3. 推荐引擎集成为了提升用户体验度量标准之一就是个性化服务功能——即根据用户的偏好预测可能感兴趣的影片列表呈现出来。这里采用了协同过滤方法论或者矩阵分解模型训练得到最终结果反馈给前端界面显示[^1]: ```python from sklearn.metrics.pairwise import cosine_similarity import numpy as np def compute_movie_recommendations(user_id): user_ratings_matrix = ... # 构建用户-物品交互稀疏矩阵 similarity_scores = cosine_similarity(user_ratings_matrix[user_id], user_ratings_matrix).flatten() top_n_indices = np.argsort(similarity_scores)[-5:] # 取相似度最高的五个电影ID recommended_movies = [...] # 查询对应名称返回集合形式输出 return recommended_movies ``` --- #### 4. 安全性和法律注意事项需要注意的是，在实际部署过程中应当遵循目标站点的服务条款规定，合理控制访问频率以免触发反爬机制甚至封禁IP地址等问题发生。另外考虑到隐私保护原则，务必匿名化敏感字段后再对外发布研究成果[^2]。 --- ###

request+正则表达式，爬取豆瓣电影top100

def get_page_source(url):

try: response=requests.get(url,headers=headers)

if response.status_code is 200: return response.text

except RequestException: return None

def pares_page_source(html): pattern=re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?<a.*?title="(.*?)".*?<img.*?-src="(.*?)".*?="star">\n(.*?)\n.*?' 'releasetime">(.*?)</p>.*?integer">(.*?)</i>.*?fraction">(\d+).*?</dd>',re.S)

result=re.findall(pattern,html) for i in result: yield{ "index":i[0], "title": i[1], "image":i[2], "actor":i[3].strip(), "time":i[4][5:], "score":i[5]+i[6] }

def write_to_txt(content): with open("maoyan.txt","a",encoding="utf-8")as f: f.write(json.dumps(content,ensure_ascii=False)+"\n")

def main(i): url="http://www.maoyan.com/board/4?offset="+str(i) html=get_page_source(url) #print(type(html)) for i in pares_page_source(html): write_to_txt(i) print(i)

if __name__ == '__main__': for i in range(10): main(i*10)