初学Python爬虫实践-优快云博客

本文链接：https://blog.youkuaiyun.com/m_oman/article/details/79345093

本文分享了作者作为Python新手的学习心得，通过抓取微博评论和喜马拉雅音频的实战案例，介绍了requests库进行网络请求、re库进行正则表达式匹配及文件操作等基本技能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

第一次写博客啦，以前只是自己学学，后来发现，如果能在博客里面写一些也能够方面自己日后查找，巩固记忆啊哈哈哈

第一篇就写写自己最开始学的python爬虫啦

import requests#网络请求
import re#正则表达式
import time
ii=0
while ii <=100:
    time.sleep(2)
    ii+=1
    url='https://m.weibo.cn/api/comments/show?id=4180274512614207&page='+str(ii)
    #请求网址，得到json文件信息
    html=requests.get(url)
    #不用正则，用切片操作//提取信息
    try:#防止出错
        for jj in range(len(html.json()['data']['data'])):
            data=html.json()['data']['data'][jj]['text']
            with open(r'E:\testpython\weibo\weibo.txt','a') as ff:
                #汉字的编码信息
                hanzi=''.join(re.findall ('[\u4e00-\u9fa5]',data))#返回列表格式
                # print(hanzi)
                ff.write(hanzi+'\n')
    except:
        None

切片好像就是有点类似于dom，一层层找到自己需要的(一定要好好利用开发者工具)

import requests
import re
import time
import urllib
# 这里是冒号
header={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'}
for n in range(1,6):
    url="http://www.ximalaya.com/29101549/album/2801092?page="+str(n)
    html=requests.get(url,headers=header)
    # 这里是括号
    data=re.findall('href="/29101549/sound/(.*?)/" hashlink',html.text)
    # 这里次数设置需弄懂
    for m in set(data[:1]):
        urls='http://www.ximalaya.com/tracks/'+m+'.json'
        html2=requests.get(urls,headers=header)
        # 这是啥
        m4a=html2.json()['play_path_64']
        urllib.request.urlretrieve(m4a,'E:\\testpython\\first\\'+m+'.m4a')