第一次写博客啦,以前只是自己学学,后来发现,如果能在博客里面写一些也能够方面自己日后查找,巩固记忆啊哈哈哈
第一篇就写写自己最开始学的python爬虫啦
import requests#网络请求
import re#正则表达式
import time
ii=0
while ii <=100:
time.sleep(2)
ii+=1
url='https://m.weibo.cn/api/comments/show?id=4180274512614207&page='+str(ii)
#请求网址,得到json文件信息
html=requests.get(url)
#不用正则,用切片操作//提取信息
try:#防止出错
for jj in range(len(html.json()['data']['data'])):
data=html.json()['data']['data'][jj]['text']
with open(r'E:\testpython\weibo\weibo.txt','a') as ff:
#汉字的编码信息
hanzi=''.join(re.findall ('[\u4e00-\u9fa5]',data))#返回列表格式
# print(hanzi)
ff.write(hanzi+'\n')
except:
None
切片好像就是有点类似于dom,一层层找到自己需要的(一定要好好利用开发者工具)
import requests
import re
import time
import urllib
# 这里是冒号
header={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'}
for n in range(1,6):
url="http://www.ximalaya.com/29101549/album/2801092?page="+str(n)
html=requests.get(url,headers=header)
# 这里是括号
data=re.findall('href="/29101549/sound/(.*?)/" hashlink',html.text)
# 这里次数设置需弄懂
for m in set(data[:1]):
urls='http://www.ximalaya.com/tracks/'+m+'.json'
html2=requests.get(urls,headers=header)
# 这是啥
m4a=html2.json()['play_path_64']
urllib.request.urlretrieve(m4a,'E:\\testpython\\first\\'+m+'.m4a')
其实学习爬虫有利于后面对于HTTP协议啊,网络请求的理解
我真的真的是新手小白啦,如果有问题希望大家能够给我多多指出来啊