2. 豆瓣TOP250电影信息爬取
import requests # 导入requests库,用于发送网络请求
import parsel # 导入parsel库,用于解析HTML或XML数据
import csv # 导入csv库,用于写入CSV文件
import time # 导入time库,用于控制程序运行时间或休眠
# 以追加模式打开文件,用于写入豆瓣电影Top250的信息
f = open('豆瓣Top250.csv', mode='a', encoding='utf-8', newline='')
# 定义csv文件的列名
csv_writer = csv.DictWriter(f, fieldnames=[
'标题', # 电影标题
'导演', # 导演
'演员', # 演员
'电影年份', # 电影年份
'拍摄国家', # 拍摄国家
'电影类型', # 电影类型
'电影评分', # 电影评分
'评论人数', # 评论人数
'电影简介', # 电影简介
])
# 写入CSV文件的列名(即表头)
csv_writer.writeheader()
# 初始化一个变量num,用于控制爬取的页码
num = 1
for page in range(0, 250, 25):
print(f'正在爬取第{num}页数据内容')
num += 1 # 更新页码
time.sleep(1) # 暂停1s,防止更新过于频繁
# 1. 发送请求, 确定url地址 然后对其发送请求
url = f'https://movie.douban.com/top250?start={page}&filter='
# User-Agent 浏览器的基本标识 基本信息 headers请求头 主要是把python代码进行伪装
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36'
}
response = requests.get(url=url, headers=headers) # 发送GET请求,获取响应内容
selector = parsel.Selector(response.text) # 使用parsel库解析HTML内容
# css选择器 主要根据标签属性内容提取数据
lis = selector.css('.grid_view li') # 获取所有li标签 返回的数据 列表, 列表里面没一个元素都是selector对象
for li in lis:
title = li.css('.info .hd span.title:nth-child(1)::text').get() # 电影的名字
movie_info_list = li.css('.bd p:nth-child(1)::text').getall() # 电影的信息
# getall 返回的是列表 strip() 去除字符串左右两端空格
actor_list = movie_info_list[0].strip().split(' ')
if len(actor_list) > 1:
actor_1 = actor_list[0].replace('导演: ', '') # 导演
actor_2 = actor_list[1].replace('主演: ', '').replace('/...', '') # 主演
movie_info = movie_info_list[1].strip().split(' / ')
movie_year = movie_info[0] # 电影的年份
movie_country = movie_info[1] # 电影的国家
movie_type = movie_info[2] # 电影的类型
movie_sum = li.css('.inq::text').get() # 电影简介
movie_num = li.css('.rating_num::text').get() # 电影评分
comment = li.css('.star span:nth-child(4)::text').get().replace('人评价', '') # 评论人数
else:
actor_1 = actor_list[0]
actor_2 = 'None'
dit = { # 将提取到的信息构造成一个字典
'标题': title,
'导演': actor_1,
'演员': actor_2,
'电影年份': movie_year,
'拍摄国家': movie_country,
'电影类型': movie_type,
'电影评分': movie_num,
'评论人数': comment,
'电影简介': movie_sum,
}
csv_writer.writerow(dit) # 将提取到的电影信息写入CSV文件
print(title, actor_1, actor_2, movie_year, movie_country, movie_type, movie_sum, movie_num, comment, sep='|')
结果展示,电影信息以CSV文件保存
3. 飞卢网小说爬取
"""
多页 多个数据采集, 我们要去分析, 请求url地址变化规律
"""
import requests # 导入requests库,用于发起网络请求
import parsel # 导入parsel库,用于解析HTML内容
# 遍历页码,从1到43
for page in range(1, 44):
# 构造请求的URL,其中{page}会被循环中的page值替换
url = f'https://b.faloo.com/1163585_{page}.html'
# 设置请求头,伪装成浏览器访问
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.54 Safari/537.36'
}
# 发起GET请求,获取网页内容
response = requests.get(url=url, headers=headers)
# 使用parsel库的Selector类解析网页内容
selector = parsel.Selector(response.text)
# 使用CSS选择器提取小说的标题
title = selector.css('.c_l_title h1::text').get().replace('偷吃我外卖被辣哭,问我要索赔? ', '')
# 去掉标题中不需要的文字
# 使用CSS选择器提取小说的所有段落内容
content_list = selector.css('div.noveContent p::text').getall()
# 将所有段落内容合并成一段长文本
content = '\n'.join(content_list)
# 打印提取到的小说标题和内容
print(title)
print(content)
# 将标题和内容写入到本地文件中
with open('偷吃我外卖被辣哭,问我要索赔?' + '.txt', mode='a', encoding='utf-8') as f:
# 写入标题
f.write(title)
# 换行
f.write('\n')
# 写入内容
f.write(content)
# 再次换行,为了区分不同章节
f.write('\n')
结果展示,小说文本以txt格式保存
4. 知乎回答爬取
import requests # 导入数据请求模块
import re # 导入正则
import json # 导入json
# 请求链接
url = 'https://www.zhihu.com/question/584206512'
# 伪装浏览器
headers = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'
}
# 发送GET请求到知乎的问题页面
response = requests.get(url=url, headers=headers)
# 问题标题
title = re.findall('<title data-rh="true">(.*?)</title>', response.text)[0] # 使用正则表达式从返回的HTML中查找问题标题
**自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。**
**深知大多数Python工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但对于培训机构动则几千的学费,着实压力不小。自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!**
**因此收集整理了一份《2024年Python开发全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友,同时减轻大家的负担。**






**既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上前端开发知识点,真正体系化!**
**由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新**
**如果你觉得这些内容对你有帮助,可以扫码获取!!!(备注:Python)**
*既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上前端开发知识点,真正体系化!**
**由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新**
**如果你觉得这些内容对你有帮助,可以扫码获取!!!(备注:Python)**
