将csv导入Postgresql

本文详细介绍使用Python、psycopg2、pandas等工具将CSV数据高效导入PostgreSQL数据库的方法,涵盖数据类型自定义、千万级数据处理及pgadmin操作技巧。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

csv导入Postgresql的几种方法:

python

使用python的pandas导入csv,不需要先创建表格。
postgre会自动创建表格和合适的数据类型。
安装psycopg2: pip install psycopg2

from sqlalchemy import create_engine
import pandas as pd
import os

# csv文件所在的文件夹
# 如果只有一个文件
Folder_Path = r'C:\Users'

table1 = pd.read_csv(Folder_Path + '\\' + '1.csv', header=0, encoding='utf-8')

connect = create_engine(
    'postgresql+psycopg2://' + 'pg_username' + ':' + 'pg_password' +
    '@pg_host' + ':' + str(5432) + '/' + 'Database')

pd.io.sql.to_sql(table1, name='table1', con=connect, index=False, 
                 if_exists='replace', chunksize=1000)
connect.dispose()

# 可以将多个文件放在同一文件夹下做批量处理
os.chdir(Folder_Path)

file_list = os.listdir()  # 获取文件夹下所有的文件名

for i in range(0, len(file_list)):
    table2 = pd.read_csv(Folder_Path + '\\' + file_list[i], header=0, encoding='utf-8')
    ...

create_engine(
    'postgresql+psycopg2://' + 'pg_username' + ':' + 'pg_password' + '@pg_host' + ':' 
    + str(5432) + '/' + 'Database')

pd.io.sql.to_sql(table1, name='table2', con=connect, index=False, 
                 if_exists='replace', chunksize=1000)

connect.dispose()

处理千万行数据快速很多的方法,将pd.io.sql.to_sql换成下面的函数:

def write_to_table(df, table_name, if_exists='fail'):

    import io
    import pandas as pd
    from sqlalchemy import create_engine
    
    db_engine = create_engine('postgresql+psycopg2://'+'pg_username'+':'+'pg_password'+'@pg_host'+':'+str(5432) + '/' + 'Database')# 初始化引擎
    string_data_io = io.StringIO()
    
    # index = True时,dataframe index 成为表格的一列
    df.to_csv(string_data_io, sep='|', index=False)
    pd_sql_engine = pd.io.sql.pandasSQL_builder(db_engine)
    table = pd.io.sql.SQLTable(table_name, pd_sql_engine, frame=df,
                               index=False, if_exists=if_exists,schema = 'public')
    table.create()
    string_data_io.seek(0)
    # string_data_io.readline()  # remove header
    
    with db_engine.connect() as connection:
        with connection.connection.cursor() as cursor:
            copy_cmd = "COPY public.%s FROM STDIN HEADER DELIMITER '|' CSV" %table_name
            cursor.copy_expert(copy_cmd, string_data_io)
        connection.connection.commit()
        
write_to_table(save_file, table_name, if_exists='replace')

如果想规定每一列的数据类型

import psycopg2
import csv

database_postgres = psycopg2.connect(database="postgres", user="postgres", password="postgres",
                                     host="localhost", port="5432")

in_data = csv.reader(open('C:/Users/K2/Ivy/1.csv', 'r', encoding='UTF-8'))

cursor = database_postgres.cursor()
print('Inserting data...')

cursor.execute("DROP TABLE IF EXISTS temp;")
# 自定义数据类型
cursor.execute("create table temp ("
               "col1 text,"
               "col2 integer,"
               "col3 text);")

for row in in_data:
    for i in range(len(row)):
        if row[i] == '':
            row[i] = None

    cursor.execute("INSERT INTO temp VALUES (%s,%s,%s)",
                   [row[0], row[1], row[2]])

print('Done inserting data...')
database_postgres.commit()
database_postgres.close()

另一种规定数据类型的方法:

from sqlalchemy.types import VARCHAR,DECIMAL,Integer

def setdtypedict(df):
   dtypedict = {}
   for i, j in zip(df.columns, df.dtypes):
       if "object" in str(j):
           dtypedict.update({i: VARCHAR(128)})
       if "float" in str(j):
           dtypedict.update({i: DECIMAL(19, 2)})  
           # 将所有float类型只保留小数点后两位
       if "int" in str(j):
           dtypedict.update({i: Integer})
   return dtypedict

dtypedict = setdtypedict(df)
pd.io.sql.to_sql(df, name='table1', con=connect, index=True, index_label='time', 
                if_exists='replace', dtype=dtypedict, chunksize=1000)

psql

  1. 创建新表:
postgres=# create table temp(col1 text,col2 text,col3 text);
  1. 从文件导入数据
postgres=# \copy temp (col1, col2, col3) FROM 'C:/Users/1.csv' DELIMITER ',' CSV ENCODING 'UTF8';

pgadmin

  1. 需要先根据csv创建表格
  2. 选择表—>右键—>导入
  3. 选择要导入的csv文件,编码格式,分隔符
  4. 导入
### 回答1: 您可以按照以下步骤将CSV文件导入PostgreSQL数据库中: 1. 创建目标表格:在PostgreSQL数据库中创建一个表格,该表格具有与CSV文件中列相对应的列名和数据类型。您可以使用以下命令来创建表格: ``` CREATE TABLE table_name ( column1 datatype, column2 datatype, column3 datatype, ..... ); ``` 例如,如果您的CSV文件包含名称,年龄和电子邮件列,则可以使用以下命令创建表格: ``` CREATE TABLE persons ( name VARCHAR(255), age INTEGER, email VARCHAR(255) ); ``` 2. 将CSV文件复制到表格中:使用PostgreSQL的COPY命令将CSV文件中的数据复制到表格中。使用以下命令: ``` COPY table_name FROM 'file_path' DELIMITER ',' CSV HEADER; ``` 在这里,`table_name`是您刚刚创建的表格的名称,`file_path`是CSV文件的路径,`DELIMITER`是分隔符,CSV文件中的每个字段都由该分隔符分隔。在上面的示例中,我们使用逗号作为分隔符。`CSV HEADER`表示第一行包含列名。 例如,如果您想将名为`persons.csv`的CSV文件复制到名为`persons`的表格中,则可以使用以下命令: ``` COPY persons FROM '/path/to/persons.csv' DELIMITER ',' CSV HEADER; ``` 这将导入CSV文件中的所有数据到表格中。 3. 确认导入:使用SELECT语句检查表格中是否存在您导入的数据。例如,您可以使用以下命令检查`persons`表格中的所有数据: ``` SELECT * FROM persons; ``` 如果所有数据都被成功导入,则会显示所有人的名称,年龄和电子邮件。 请注意,导入数据时,您需要确保表格中的列名和数据类型与CSV文件中的列相匹配。如果CSV文件中的列名与表格中的列名不匹配,则可以使用`CSV HEADER`选项将第一行作为列名导入。如果数据类型不匹配,则可能需要在导入数据之前将数据转换为正确的类型。 ### 回答2: 要将csv文件导入PostgreSQL数据库,可以按照以下步骤进行操作: 1. 在PostgreSQL中创建一个目标表,以匹配csv文件中的列。可以使用CREATE TABLE语句来定义表的结构,并且确保列的数据类型与csv文件的数据类型匹配。 2. 使用psql或pgAdminPostgreSQL的客户端工具连接到数据库。 3. 使用COPY命令将csv文件的内容导入PostgreSQL数据库中的目标表。COPY命令具有导入数据的功能,语法如下: COPY table_name FROM 'file_path' DELIMITER ',' CSV HEADER; 其中,table_name是目标表的名称,file_path是csv文件的路径,DELIMITER指定csv文件中字段的分隔符(一般是逗号),CSV表示csv文件的格式,HEADER是指定csv文件是否包含标题行。 4. 运行以上COPY命令,将csv文件的内容导入PostgreSQL数据库的目标表中。命令执行成功后,数据就会被加载到数据库中。 注意事项: - 保证csv文件的路径正确且PostgreSQL服务器对该路径具有读取权限。 - 为了确保导入的数据正确,csv文件的内容和目标表的结构应该匹配。 - 如果csv文件中的某些列不需要导入数据库,可以在创建表时将它们定义为可选列,然后在COPY命令中省略这些列。 以上就是将csv文件导入PostgreSQL数据库的基本步骤。根据实际情况,你可能需要调整和修改这些步骤,以满足具体的要求。 ### 回答3: 要将CSV文件导入PostgreSQL数据库,可以按照以下步骤操作: 步骤1:准备CSV文件和数据库表 首先,确保你已经准备好了CSV文件和对应的数据库表。CSV文件应该包含要导入的数据,数据库表应该已经创建,并且与CSV文件中的数据字段相匹配。 步骤2:连接到数据库 使用适当的数据库客户端或命令行工具连接到PostgreSQL数据库。 步骤3:创建临时表 在数据库中创建一个临时表,该表的结构应该与CSV文件中的数据字段结构相匹配。 步骤4:导入CSV文件到临时表 使用以下命令将CSV文件中的数据导入到临时表中: COPY temp_table_name FROM 'file_path' DELIMITER ',' CSV HEADER; 其中,temp_table_name是临时表的名称,file_path是CSV文件的路径。 步骤5:处理数据 根据需要,你可以对导入的数据进行清洗或处理操作,例如删除重复项、转换数据类型等。 步骤6:将数据导入到目标表 使用INSERT INTO语句将临时表中的数据导入到目标表中: INSERT INTO target_table_name SELECT * FROM temp_table_name; 其中,target_table_name是目标表的名称。 步骤7:清理临时表 在完成数据导入后,可以删除临时表。 以上是将CSV文件导入PostgreSQL数据库的基本步骤。根据具体情况,你可能需要根据数据的结构和需要进行适当的调整和优化。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值