储存数据,带参数爬虫,json

本文介绍使用Python进行数据爬取的实践案例,包括从豆瓣网站抓取电影评论并保存至Excel,以及从腾讯音乐平台爬取五月天的歌曲信息。通过解析网页源码,利用requests和BeautifulSoup库完成数据获取,展示了如何处理反爬虫策略及参数化爬虫技巧。

储存数据,带参数爬虫,json

之前上课时写的一些练习代码,上传一下

爬电影到excel文件

import requests, bs4 ,openpyxl

# 创建工作簿
wb=openpyxl.Workbook()  
# 获取工作簿的活动表
sheet=wb.active 
# 工作表重命名
sheet.title='movie_comments' 

sheet['A1'] ='序号'     # 加表头,给A1单元格赋值
sheet['B1'] ='电影名'   # 加表头,给B1单元格赋值
sheet['C1'] ='评分'   # 加表头,给C1单元格赋值
sheet['D1'] ='评语'   # 加表头,给D1单元格赋值
sheet['E1'] ='播放链接'   # 加表头,给E1单元格赋值

#反爬虫请求头
headers={'user-agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'}
for x in range(10):
    url = 'https://movie.douban.com/top250?start=' + str(x*25) + '&filter='
    res = requests.get(url, headers=headers)
    bs = bs4.BeautifulSoup(res.text, 'html.parser')
    bs = bs.find('ol', class_="grid_view")
    for titles in bs.find_all('li'):
        num = titles.find('em',class_="").text
        title = titles.find('span', class_="title").text
        comment = titles.find('span',class_="rating_num").text
        url_movie = titles.find('a')['href']

        if titles.find('span',class_="inq") != None:
            tes = titles.find('span',class_="inq").text
            print(num + '.' + title + '——' + comment + '\n' + '推荐语:' + tes +'\n' + url_movie)
        else:
            tes='无评语'
            print(num + '.' + title + '——' + comment + '\n' +'\n' + url_movie)
        sheet.append([num,title,comment,tes,url_movie])  

# 最后保存并命名这个Excel文件        
wb.save('movie.xlsx')
  • List item

带参数爬虫

import requests,openpyxl
# 创建工作簿
wb=openpyxl.Workbook()  
# 获取工作簿的活动表
sheet=wb.active 
# 工作表重命名
sheet.title='lyrics' 

sheet['A1'] ='歌曲名'     # 加表头,给A1单元格赋值
sheet['B1'] ='所属专辑'   # 加表头,给B1单元格赋值
sheet['C1'] ='播放时长'   # 加表头,给C1单元格赋值
sheet['D1'] ='播放链接'   # 加表头,给D1单元格赋值

url = 'https://c.y.qq.com/soso/fcgi-bin/client_search_cp'
for x in range(5):
    params = {
        'ct': '24',
        'qqmusic_ver': '1298',
        'new_json': '1',
        'remoteplace': 'txt.yqq.song',
        'searchid': '64405487069162918',
        't': '0',
        'aggr': '1',
        'cr': '1',
        'catZhida': '1',
        'lossless': '0',
        'flag_qc': '0',
        'p': str(x + 1),
        'n': '20',
        'w': '五月天',
        'g_tk': '5381',
        'loginUin': '0',
        'hostUin': '0',
        'format': 'json',
        'inCharset': 'utf8',
        'outCharset': 'utf-8',
        'notice': '0',
        'platform': 'yqq.json',
        'needNewCode': '0'
    }

    res_music = requests.get(url, params=params)
    json_music = res_music.json()
    list_music = json_music['data']['song']['list']
    for music in list_music:
        # 以name为键,查找歌曲名,把歌曲名赋值给name
        name = music['name']
        # 查找专辑名,把专辑名赋给album
        album = music['album']['name']
        # 查找播放时长,把时长赋值给time
        time = music['interval']
        # 查找播放链接,把链接赋值给link
        link = 'https://y.qq.com/n/yqq/song/' + str(music['mid']) + '.html\n\n'
        # 把name、album、time和link写成列表,用append函数多行写入Excel
        sheet.append([name,album,time,link])  
        print('歌曲名:' + name + '\n' + '所属专辑:' + album +'\n' + '播放时长:' + str(time) + '\n' + '播放链接:'+ link)
        
# 最后保存并命名这个Excel文件        
wb.save('Mayday.xlsx')
爬虫可以使用Pythonjson模块来保存数据JSON格式。首先,你需要将爬取到的数据存储在一个Python字典中。然后,使用json.dumps()函数将字典序列化为JSON字符串。你可以使用参数indent来指定缩进字符的个数,以便更好地格式化输出。接下来,你可以使用open()函数以写入模式打开一个文件,并将JSON字符串写入文件中。最后,记得关闭文件。下面是一个示例代码: ```python import json # 假设你已经爬取到了数据,并存储在一个字典中 data = { 'name': 'ACME', 'shares': 100, 'price': 542.23 } # 将字典序列化为JSON字符串 json_str = json.dumps(data, indent=2) # 将JSON字符串写入文件 with open('data.json', 'w') as file: file.write(json_str) ``` 在上面的代码中,我们使用了json.dumps()函数将字典data序列化为JSON字符串,并指定了indent参数为2,以便更好地格式化输出。然后,我们使用open()函数以写入模式打开一个名为data.json的文件,并将JSON字符串写入文件中。最后,记得使用with语句来自动关闭文件。 这样,你就可以将爬取到的数据保存为JSON格式了。 #### 引用[.reference_title] - *1* [一步一步学爬虫(4)数据存储之JSON存储](https://blog.youkuaiyun.com/alijunshan/article/details/128501676)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* *3* [爬虫中的数据保存----json文件的保存](https://blog.youkuaiyun.com/m0_74459049/article/details/130307215)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值