小白python爬虫

本文分享了作者作为Python新手的学习心得,通过抓取微博评论和喜马拉雅音频的实战案例,介绍了requests库进行网络请求、re库进行正则表达式匹配及文件操作等基本技能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

第一次写博客啦,以前只是自己学学,后来发现,如果能在博客里面写一些也能够方面自己日后查找,巩固记忆啊哈哈哈

第一篇就写写自己最开始学的python爬虫啦

import requests#网络请求
import re#正则表达式
import time
ii=0
while ii <=100:
time.sleep(2)
ii+=1
url='https://m.weibo.cn/api/comments/show?id=4180274512614207&page='+str(ii)
#请求网址,得到json文件信息
html=requests.get(url)
#不用正则,用切片操作//提取信息
try:#防止出错
for jj in range(len(html.json()['data']['data'])):
data=html.json()['data']['data'][jj]['text']
with open(r'E:\testpython\weibo\weibo.txt','a') as ff:
#汉字的编码信息
hanzi=''.join(re.findall ('[\u4e00-\u9fa5]',data))#返回列表格式
# print(hanzi)
ff.write(hanzi+'\n')
except:
None

切片好像就是有点类似于dom,一层层找到自己需要的(一定要好好利用开发者工具)

import requests
import re
import time
import urllib
# 这里是冒号
header={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'}
for n in range(1,6):
url="http://www.ximalaya.com/29101549/album/2801092?page="+str(n)
html=requests.get(url,headers=header)
# 这里是括号
data=re.findall('href="/29101549/sound/(.*?)/" hashlink',html.text)
# 这里次数设置需弄懂
for m in set(data[:1]):
urls='http://www.ximalaya.com/tracks/'+m+'.json'
html2=requests.get(urls,headers=header)
# 这是啥
m4a=html2.json()['play_path_64']
urllib.request.urlretrieve(m4a,'E:\\testpython\\first\\'+m+'.m4a')
header是为了反爬的代理。

其实学习爬虫有利于后面对于HTTP协议啊,网络请求的理解


我真的真的是新手小白啦,如果有问题希望大家能够给我多多指出来啊

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值