python爬取静态数据并存储json

import requests

import chardet

from bs4 import BeautifulSoup

import json
'''
遇到python不懂的问题,可以加Python学习交流群:1004391443一起学习交流,群文件还有零基础入门的学习资料
'''
user_agent='Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0'

headers={'User-Agent':user_agent}

r=requests.get('http://seputu.com/',headers=headers)

r.encoding=chardet.detect(r.content)['encoding']

soup=BeautifulSoup(r.text,features='html.parser')

content=[]

for mulu in soup.find_all(class_='mulu'):

    h2=mulu.find('h2')

    if(h2!=None):

        h2_title=h2.string

        list=[]

        for a in mulu.find(class_='box').find_all('a'):

            href=a.get('href')

            box_title=a.get('title')

            print(href,'|||',box_title)

            list.append({'href':href,'box_title':box_title})

            pass

        content.append({'title':h2_title,'content':list})

        pass

    pass

with open('1.json','w') as fp:

    json.dump(content, fp=fp,indent=4)

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值