Python的八种数据导入方法,你全都知道吗?赶紧收藏!

本文介绍了Python中数据分析时常用的数据导入方法,包括使用NumPy和Pandas库处理文本文件、表格数据(如CSV和Excel)、SAS、Stata文件,以及Pickled、HDF5、Matlab文件的读取。此外,还涉及了如何从关系型数据库中提取数据。

数据分析过程中,需要对获取到的数据进行分析,往往第一步就是导入数据。导入数据有很多方式,不同的数据文件需要用到不同的导入方式,相同的文件也会有几种不同的导入方式。下面总结几种常用的文件导入方法。
大多数情况下,会使用NumPy或Pandas来导入数据,因此在开始之前,先执行:

import numpy as np  
import pandas as pd  

两种获取help的方法

很多时候对一些函数方法不是很了解,此时Python提供了一些帮助信息,以快速使用Python对象。

使用Numpy中的info方法

np.info(np.ndarray.dtype)  

在这里插入图片描述

Python内置函数

help(pd.read_csv)  

在这里插入图片描述

一、文本文件

1、纯文本文件
1.filename = 'demo.txt'  
2.file = open(filename, mode='r') # 打开文件进行读取  
3.text = file.read() # 读取文件的内容  
4.print(file.closed) # 检查文件是否关闭  
5.file.close() # 关闭文件  
6.print(text)  

使用上下文管理器 – with

    with open('demo.txt', 'r') as file:  
    print(file.readline()) # 一行一行读取  
    print(file.readline())  
    print(file.readline())  
2、表格数据:Flat文件

使用 Numpy 读取 Flat 文件
Numpy 内置函数处理数据的速度是 C 语言级别的。

Flat 文件是一种包含没有相对关系结构的记录的文件。(支持Excel、CSV和Tab分割符文件 )

  • 具有一种数据类型的文件

用于分隔值的字符串跳过前两行。在第一列和第三列读取结果数组的类型。

filename = 'mnist.txt'  
data = np.loadtxt(filename,  
                  delimiter=',',  
                  skiprows=2,  
                  usecols=[0,2],  
                  dtype=str)  

  • 具有混合数据类型的文件
    两个硬的要求:

    • 跳过表头信息

    • 区分横纵坐标

filename = 'titanic.csv'  
data = np.genfromtxt(filename,  
                     delimiter=',',  
                     names=True,  
                     dtype=None)  

在这里插入图片描述
使用 Pandas 读取Flat文件

filename = 'demo.csv'   
data = pd.read_csv(filename,   
                   nrows=5,        # 要读取的文件的行数  
                   header=None,    # 作为列名的行号  
                   sep='\t',       # 分隔符使用  
                   comment='#',    # 分隔注释的字符  
                   na_values=[""]) # 可以识别为NA/NaN的字符串  

二、Excel 电子表格

Pandas中的ExcelFile()是pandas中对excel表格文件进行读取相关操作非常方便快捷的类,尤其是在对含有多个sheet的excel文件进行操控时非常方便。

file = 'demo.xlsx'  
data = pd.ExcelFile(file)  
df_sheet2 = data.parse(sheet_name='1960-1966',  
                       skiprows=[0],  
                       names=['Country',  
                              'AAM: War(2002)'])  
df_sheet1 = pd.read_excel(data,  
                          sheet_name=0,  
                          parse_cols=[0],  
                          skiprows=[0],  
                          names=['Country'])  

使用sheet_names属性获取要读取工作表的名称。

data.sheet_names  

三、SAS 文件

SAS (Statistical Analysis System)是一个模块化、集成化的大型应用软件系统。其保存的文件即sas是统计分析文件。

from sas7bdat import SAS7BDAT  
with SAS7BDAT('demo.sas7bdat') as file:  
  df_sas = file.to_data_frame()  

四、Stata 文件

Stata 是一套提供其使用者数据分析、数据管理以及绘制专业图表的完整及整合性统计软件。其保存的文件后缀名为.dta的Stata文件。

data = pd.read_stata('demo.dta')  

五、Pickled 文件

python中几乎所有的数据类型(列表,字典,集合,类等)都可以用pickle来序列化。python的pickle模块实现了基本的数据序列和反序列化。通过pickle模块的序列化操作我们能够将程序中运行的对象信息保存到文件中去,永久存储;通过pickle模块的反序列化操作,我们能够从文件中创建上一次程序保存的对象。

import pickle  
with open('pickled_demo.pkl', 'rb') as file:  
   pickled_data = pickle.load(file) # 下载被打开被读取到的数据  

与其相对应的操作是写入方法pickle.dump() 。

六、HDF5 文件

HDF5文件是一种常见的跨平台数据储存文件,可以存储不同类型的图像和数码数据,并且可以在不同类型的机器上传输,同时还有统一处理这种文件格式的函数库。

HDF5 文件一般以 .h5 或者 .hdf5 作为后缀名,需要专门的软件才能打开预览文件的内容。

import h5py  
filename = 'H-H1_LOSC_4_v1-815411200-4096.hdf5'  
data = h5py.File(filename, 'r')  

七、Matlab 文件

其由matlab将其工作区间里的数据存储的后缀为.mat的文件。

import scipy.io  
filename = 'workspace.mat'  
mat = scipy.io.loadmat(filename)  

八、关系型数据库

from sqlalchemy import create_engine  
engine = create_engine('sqlite://Northwind.sqlite')  

使用table_names()方法获取一个表名列表

table_names = engine.table_names()  

1、直接查询关系型数据库
con = engine.connect()  
rs = con.execute("SELECT * FROM Orders")  
df = pd.DataFrame(rs.fetchall())  
df.columns = rs.keys()  
con.close()  

使用上下文管理器 – with

with engine.connect() as con:  
    rs = con.execute("SELECT OrderID FROM Orders")  
    df = pd.DataFrame(rs.fetchmany(size=5))  
    df.columns = rs.keys()  
2、使用Pandas查询关系型数据库
df = pd.read_sql_query("SELECT * FROM Orders", engine)  
<think>嗯,用户问的是学习Python为了使用PyFluent需要学哪些内容,是否需要全部都学。首先,我得回忆一下PyFluent是什么。PyFluent是ANSYS Fluent的Python API,用于进行流体动力学仿真。所以用户可能是在做CFD相关的工作,希望通过Python来自动化或扩展Fluent的功能。 接下来,用户想知道需要学习哪些Python知识,以及是否需要全部掌握。首先,我应该明确PyFluent的使用场景。通常,使用PyFluent需要调用其API来设置仿真参数、控制求解过程、处理结果数据等。因此,用户可能需要掌握Python的基础语法、文件操作、数据处理库如NumPy和Matplotlib,以及可能的面向对象编程。 然后,是否需要全部学习?显然不需要,但哪些是重点呢?基础语法肯定是必须的,比如变量、循环、条件语句、函数等。然后是模块和包的管理,因为PyFluent本身是一个包,用户需要知道如何导入和使用。文件操作方面,读写配置文件或结果文件可能需要用到。数据处理部分,因为仿真结果通常是大量的数据,用NumPy处理数组,用Matplotlib或PyVista可视化是常见的需求。此外,可能需要了解与Fluent交互的API方法,比如启动Fluent、操作案例文件、设置边界条件等。 不过,用户可能不需要深入学习高级主题如元编程、多线程,除非有特定需求。所以应该分层次,先掌握核心内容,再按需学习其他部分。 另外,用户可能不知道PyFluent的具体文档和示例的重要性,所以应该推荐他们查阅官方文档和示例代码,这能更快上手。同时,调试和异常处理也是实际应用中不可避免的,因此错误处理和调试技巧也很重要。 总结一下,回答的结构应该是先列出必须学习的内容,然后是需要了解的部分,最后是可选的高级内容,并说明不需要全部学完,按需学习。同时给出示例代码,比如启动Fluent、设置边界条件、处理数据,这样用户能更直观地理解所需的知识点。 然后,相关问题需要围绕PyFluent和Python的结合,可能涉及API使用、数据处理、可视化、调试等,这样用户可以根据自己的需求进一步探索。</think><< 要有效使用PyFluent(ANSYS Fluent的Python API),需要重点学习以下Python内容,但无需全部掌握,可按需逐步深入: ### **1. 必须掌握的核心内容** - **基础语法**:变量、数据类型、条件语句(`if-else`)、循环(`for/while`)、函数定义等。 ```python # 示例:循环和条件语句 for i in range(5): if i % 2 == 0: print(f"{i} is even") ``` - **模块和包管理**:导入PyFluent模块(如`ansys.fluent.core`)和常用库(如`numpy`)。 ```python from ansys.fluent.core import launch_fluent import numpy as np ``` - **文件操作**:读写文本/二进制文件(如Fluent案例文件`.cas`/`.dat`)。 ```python with open("simulation_results.txt", "w") as f: f.write("Pressure: 101325 Pa") ``` - **数据处理**: - **NumPy**:处理仿真数据(如数组操作)。 - **Matplotlib/PyVista**:可视化流场结果。 ```python import matplotlib.pyplot as plt plt.plot([1, 2, 3], [10, 20, 5]) plt.savefig("result_plot.png") ``` ### **2. 需要了解的PyFluent专用内容** - **Fluent API方法**: - 启动Fluent会话:`launch_fluent()`。 - 操作案例文件:`file.read_case()`, `file.write_case()`。 - 设置边界条件:`boundary_conditions`模块。 ```python session = launch_fluent(mode="solver") session.file.read_case("flow.cas") session.solution.run_calculation.iterate(iter_count=100) ``` - **结果提取**:通过`results`模块获取压力、速度等数据。 ### **3. 可选的高级内容** - **面向对象编程(OOP)**:封装重复操作(如自定义求解器控制类)。 - **调试与异常处理**:使用`try-except`捕获API错误。 ```python try: session.solution.initialization.hybrid_initialize() except Exception as e: print(f"初始化失败: {e}") ``` - **并行计算**:若需分布式计算,学习`multiprocessing`库。 ### **4. 不需要立即学习的内容** - 元编程(如装饰器、元类)。 - Web开发框架(如Django)。 - 复杂多线程(除非需高性能交互)。 --- ### **学习建议** 1. **优先掌握核心内容**,再通过PyFluent官方文档和示例代码实践。 2. **结合需求扩展**:例如若需后处理,深入学习NumPy/Matplotlib。 3. 参考ANSYS官方资源:[PyFluent Documentation](https://fluent.docs.pyansys.com/)。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值