数据存储(一)

本文是基于:《Python爬虫开发与项目实战》 一书的学习笔记。并对书中的代码进行了一定的修改。

JSON

储存为JSON文件利用的是dumpdumps 函数。具体的可以看 json — JSON encoder and decoder

import json
import requests
from bs4 import BeautifulSoup




url = "http://www.seputu.com/" ##爬取的网站
req = requests.get(url)
bs = BeautifulSoup(req.text,"html.parser")
content = []

for m in bs.find_all(class_ = "mulu"):##找到标签为class=mulu
    h2 = m.find("h2") ##找到标签为h2
    if h2 != None:
        h2_title = h2.string ##提取标题
        content_list = []
        for h in m.find(class_ = "box").find_all("a"):
            href = h.get("href") ##提取链接
            title = h.get("title")##提取每一章标题
            content_list.append({'href':href,'title':title}) ##添加在list中           
        content.append({'title':h2_title,'content':content_list})

with open("盗墓笔记.json","w") as fp:
    json.dump(content,fp = fp,indent=4)##缩进为4是最美观的    

运行结构如图:
这里写图片描述

这里写图片描述

CSV

将爬取的数据储存到CSV类型的文件中,利用到了csv 这个库,具体代码如下:

import requests
from bs4 import BeautifulSoup
import csv



url = "http://www.seputu.com/" ##爬取的网站
req = requests.get(url)
bs = BeautifulSoup(req.text,"html.parser")

header=['title','sub_title','href']  ##设置文件每一列的标题
f = open("盗墓笔记.csv",'w')  ##创建一个csv文件
f_csv = csv.writer(f)
f_csv.writerow(header)


for m in bs.find_all(class_ = "mulu"):##找到标签为class=mulu
    h2 = m.find("h2") ##找到标签为h2
    if h2 != None:
        h2_title = h2.string ##提取标题
        content_list = []
        for h in m.find(class_ = "box").find_all("a"):
            href = h.get("href") ##提取链接
            title = h.get("title")##提取每一章标题
            content_list.append({'href':href,'title':title}) ##添加在list中
            content = (h2_title,title,href)
            f_csv.writerow(content) ##写入每一行

f.close() ##关闭文件流

运行结果如下:
这里写图片描述
这里写图片描述

打开读取csv文件的代码如下:

import csv

with open("盗墓笔记.csv") as f:
    f_csv = csv.reader(f)
    headers = next(f_csv)
    print(headers)
    for row in f_csv:
        print("row is ",row)

运行结果如下:
这里写图片描述

这里写图片描述

多媒体文件抽取

就是图片下载啊这些的。下面这段代码是网上找到的一组:

import urllib
import requests
import re
import os

def download_page(url):
    req = urllib.request.Request(url)
    res = urllib.request.urlopen(req)
    data = res.read()
    return data

def get_img(html):
    regx = r"http://[\S]*\.jpg"
    pattern = re.compile(regx)
    get_img = re.findall(pattern,repr(html))
    num = 1
    for img in get_img:
        image = download_page(img)
        with open("%s.jpg"%num,"wb") as fp:
            fp.write(image)
            num+=1
            print("正在下载第%s张图片"%num)

    return

url="http://www.ivsky.com/tupian/xuexi_t2316/"
html = download_page(url)
get_img(html) 

运行结果如下:
这里写图片描述
这里写图片描述

按照书上的,用的是urlretrieve 这个函数。

import urllib
import requests
from lxml import etree

url = "http://www.ivsky.com/tupian/shishangnvhai_t19861/index_5.html"
req = requests.get(url)
html = etree.HTML(req.text)
img_urls = html.xpath('.//img/@src')
i = 0
for image in img_urls:
    urllib.request.urlretrieve(image,'img'+str(i)+'.jpg')
    print("zhengzai xiazai di %s"%i)
    i+=1

运行结果如图:
这里写图片描述

这里写图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值