python实现京东搜索笔记本读取图片和价格等信息并保存到csv

本文介绍了如何使用Python进行网络爬虫,从京东搜索结果中抓取笔记本的图片、价格等信息,并将这些数据保存到CSV文件中,作为数据分析与数据挖掘的一部分。同时,文章也提及了在CSV文件中添加标题的操作问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

数据分析与数据挖掘 笔记2
京东搜索笔记本读取图片和价格等信息并保存到csv
作业存档,感谢大佬的指导

from selenium import webdriver
import time
import requests
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.action_chains import ActionChains
import os

# 新建装img与data的文件夹 img装图片 data装数据
try:
    os.mkdir('img')
    os.mkdir('data')
except FileExistsError:
    print('已经有文件了,不需要创建~继续执行~')

driver = webdriver.Chrome(executable_path=r'D:\lession\demo\demo\chromedriver.exe')
driver.get('https://www.jd.com')
time.sleep(2)
driver.find_element_by_xpath('/html/body/div[1]/div[4]/div/div[2]/di
京东商城的商品信息通常受到反爬虫策略的保护,直接获取完整爬虫代码可能会涉及到版权法律问题。不过我可以为你概述一下爬取清洗大数据的一般步骤: 1. **爬虫编写**: 使用Python的库如`requests``BeautifulSoup`,或者更现代的`Scrapy`框架来抓取网页内容。首先,模拟用户请求登录(如果需要),然后解析HTML结构找到包含笔记本电脑信息的部分。这一步会涉及到URL构建、HTTP请求以及解析响应。 ```python import requests from bs4 import BeautifulSoup url = "https://list.jd.com/list.html?cat=670%2C671%2C672" response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') # 找到笔记本电脑信息所在的div或table标签 notebooks_data = soup.select('.product-item') # 示例选择器,实际需根据页面结构调整 ``` 2. **数据清洗**: - 解析提取关键字段,如商品名称、价格、评价等。 - 清除无关字符、HTML标签。 - 检查处理缺失值、异常值。 ```python def clean_data(item): name = item.find('a', class_='name').text.strip() price = item.find('i', class_='price').get_text().strip() # 注意处理货币单位 rating = item.find('span', class_='評分')['title'] # 获取评分 return {'name': name, 'price': price, 'rating': rating} cleaned_data = [clean_data(notebook) for notebook in notebooks_data] ``` 3. **保存数据**: 将清洗后的数据保存CSV、JSON或其他适合的形式。 请注意,实际操作时需要遵守京东的robots.txt协议,尊重其爬虫政策,且定期检查网站结构变化以适应可能的反爬虫措施更新。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值