数据分析中pandas的日常使用

本文介绍了在数据分析中如何使用Pandas库进行文件导入,包括Excel、CSV、MySQL和PostgreSQL数据。此外,详细讨论了Series和DataFrame两种核心数据结构,以及如何使用pd.merge()函数进行数据合并,包括参数on、how、left_on和right_on的解释。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


持续更新中, 如有问题请随时评论指出, 共同进步~

导入文件

01 导入excel文件

os.chdir(r"C:\Users\Administrator\Desktop")
df1 = pd.read_excel("附件1:协议酒店名单发布版.xlsx", encoding="utf-8",sheetname=0)
# 现在的版本encoding="utf-8" 可有可无, sheetname是指第一个表

02 导入CSV文件

df2 = pd.read_csv('data/train-pivot.csv')

03 导入MySQL数据

import pandas as pd
import pymysql
conn = pymysql.connect(host="localhost", user="root", password="123456", db="test")
sql = "select * from emp" #emp 是table的名字
pd.read_sql(sql,conn)

在这里插入图片描述

04 导入postgret数据

import psycopg2
import pandas as pd
import matplotlib.pyplot as plt
conn = psycopg2.connect(dbname="re", user="postgres",password="111", host="1.1.1.1", port="5432")
sql = "select id, datetime, battery, charging, device from devicepower where id=2 and (datetime BETWEEN '2019-07-28 02:38:17' AND '2019-07-28 05:50:18') order by datetime"
df = pd.read_sql(sql,conn)
df.head(100)

在这里插入图片描述

Series 和 DataFrame基础使用

Series 和 DataFrame是pandas中常用的两个数据结构.

01 Series

Seires 是一维的数组型对象, 包含一个索引和一个值序列, 索引默认为0-N. 可以认为这是一个定长的有序字典, index 和 value 11对应.

import numpy as np
import pandas as pd
#建立Series
s = pd.Series([1,3,5,np.nan,6,8], index=list("abcdef"))
print(s)
# 查看前5行
print(s.head())
#查看后3行
print(s.tail(3))
# 查看index
print(s.index)
#获取所有值, 获取单个值, 获取多个值
print(s.values)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值