爬虫之数据存储

本文介绍了Python爬虫中数据存储的常见方式,包括JSON、CSV、Excel和MySQL数据库。JSON因其简洁清晰的结构被广泛用于数据交换;CSV适合存储简单数据,可使用DictReader和DictWriter处理;Excel读写则涉及xlrd和xlwt库;而对于大量数据,MySQL作为数据库提供了高效存储和查询能力。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.JSON文件格式处理
JSON(JavaScript Object Notation,JS对象标记)是一种轻量级的数据交换格式。它基于ECMAScript的一个子集,采用完全独立与编程语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得JSON成为理想的数据交换语言。易于人阅读和编写,同时也易于机器解析和生成。并有效地提高网络传输效率
JSON 支持的数据格式:
对象(字典):使用花括号
数组(列表):使用方括号
字符串类型:字符串必须要用双引号,不能使用单引号。整型,浮点型,布尔类型和null
多个数据之间使用逗号隔开
注意:json本质就是一个字符串

把python对象dump成一个JSON字符串
dumps函数:把python对象转换成一个JSON格式的字符串
dump():把python对象转换成一个JSON格式的字符串,并允许传入一个文件指针fp参数,可以存入到文件中
这两个方法都有一个ensure_asscii参数,默认情况下这个参数的值是True,也就是说转换后的JSON字符串只能存储asscii格式的,不能存储中文,如果想要存储为中文,那么可以将其设为False,这两个函数的区别在于:dump把python对象转换成json对象生成一个fp的文件流,而dumps则是生成了一个字符串

把Json字符串转换成python对象:

(1) loads:将JSON字符串转换成python对象

rresult = json.loads(result)
 print(rresult)

(2) load:将JSON字符串转换成python对象,并且是直接从文件中获取JSON字符串

with open('book.json','r',encoding='utf-8') as f :
    re=json.load(f)
    print(re)
    print(type(re))

2,CSV文件格式处理
CSV文件的写入
read()

import csv
with open('stock.csv','r',encoding='gbk') as fp:
     reader = csv.reader(fp) #返回的是一个迭代器
     for x in reader:
     print(x)
     # print(x[index]) 如果想访问x中的第几项可以通过下标来获取

DictReader()

import csv
with open('stock.csv','r',encoding='gbk') as fp:
     reader = csv.DictReader(fp) #返回的是一个迭代器
     for x in reader:
     print(x)
     # print(x[string]) 如果想访问x中的第几项可以通过字段来获取

CSV文件的写入:
一、使用writerow:写入数据到csv文件,需要创建一个write对象,主要用到两个方法。一个是writerow,写入一行,一个是writerows,这个是写入多行。

import csv
headers =('name','age','height')
students =[
      
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值