以下代码是一个简单的网络爬虫程序,用于从豆瓣电影 Top250 页面获取电影信息并保存到 CSV 文件中。以下是代码的一些主要步骤和功能:
-
导入模块:代码开始部分导入了
requests
和etree
模块用于网络请求和数据解析。 -
get_html(start)
函数:这个函数用于发起网络请求,获取豆瓣电影 Top250 页面中每页的电影数据。它通过 XPath 解析页面内容,提取电影的标题、链接、导演、评分、评分人数和概要等信息,并调用save_data()
函数保存到 CSV 文件中。 -
save_data()
函数:保存电影信息到 CSV 文件中。 -
程序入口
if __name__ == '__main__':
部分:在这里,程序会创建或清空一个名为“豆瓣TOP250.csv”的 CSV 文件并写入表头,“名称,网址,导演,评分,评分人数,概要”。然后,循环遍历 Top250 页面的不同部分,并调用get_html()
函数来获取数据并保存到 CSV 文件中。 -
数据清洗与处理:代码中还包含了一些数据清洗和处理的步骤,如读取 CSV 文件、处理缺失值、转换数据类型、处理异常值、数据去重和保存清洗后的数据到csv文件中。
# 导入模块 import requests # 网络请求模块 from lxml import etree # 数据解析模块 # 发起网络请求 def get_html(start): print('正在爬取', start) url &