基于pyodps读本地文件上传到odps

本文介绍了一种利用Python将包含特殊字符的本地文件上传至阿里云ODPS的方法,通过pandas读取CSV文件,并使用pyodps进行数据处理及上传,解决了DataWorks界面操作存在的问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

         

 

        本地文件有传输到odps的需要,虽然阿里云dataworks有这样的操作界面,但是文件内容有个逗号啥的就会有问题,所以专门写个脚本处理这一步。

处理逻辑:

       pandas_read_csv ---->pyodps的dataframe------>odps

代码如下,简单方便:

# -*- coding: utf-8 -*-

import pandas as pd
from odps import ODPS
from odps.df import DataFrame
o = ODPS(
    access_id='********',
    secret_access_key='***********',
    project='**************',
    endpoint='http://service.odps.aliyun.com/api'
)




#写入的时候是按照列名匹配的,所以对这个dataframe重命名
dewu_offline = pd.read_csv("/Users/wangyuhang/Downloads/shihuo_20200802.tsv",sep='\t',header=0,
                             names=['order_no',
                                    'sub_order_no',
                                    'biz_type',
                                    'biz_channel',
                                    'biz_code',
                                    'biz_id',
                                    'sub_order_status',
                                    'pay_amount',
                                    'discount_amount',
                                    'inventory_id',
                                    'spu_id',
                                    'sku_id',
                                    'sku_title',
                                    'sku_price',
                                    'sku_count',
                                    'buyer_note',
                                    'deposit_amount',
                                    'poundage_amount',
                                    'poundage_info',
                                    'item_info',
                                    'close_type',
                                    'close_time',
                                    'feature',
                                    'is_del',
                                    'create_time',
                                    'modify_time',
                                    'product_amount',
                                    'freight_amount',
                                    'sku_logo',
                                    'delivery_deadline',
                                    'tab_tag',
                                    'size',
                                    'identify_status',
                                    'pay_status',
                                    'source_name',
                                    'customized_parameter',
                                    'no_use'])

dewu_offline_all = DataFrame(dewu_offline)

print(dewu_offline_all.head(5))

#如果这里是个非分区表
#dewu_offline_all.persist('tmp_shihuo_du_order_from_dewu_offline',odps=o)

dewu_offline_all.persist('tmp_shihuo_du_order_from_dewu_offline_all', partition='dt=20200802',odps=o,create_partition=True)

所以感觉python有时候还是方便的

PyODPS提供了一些高并发查询ODPS的方法,这些方法可以帮助我们提高查询效率。下面介绍两种常用的高并发查询方法: 1. 使用SQL语句进行高并发查询 使用SQL语句进行高并发查询是一种常见的方法,可以使用PyODPS的execute_sql方法实现。该方法可以同时执行多个SQL语句,并返回多个查询结果。下面是一个示例代码: ```python from odps import ODPS # 创建ODPS连接 odps = ODPS('your_access_id', 'your_access_key', 'your_project_name', 'your_endpoint') # 定义多个SQL语句 sqls = [ 'SELECT * FROM table1', 'SELECT * FROM table2', 'SELECT * FROM table3', 'SELECT * FROM table4', 'SELECT * FROM table5' ] # 执行多个SQL语句 results = odps.execute_sql(sqls) # 处理查询结果 for i, result in enumerate(results): print(f'Table {i+1} result:') for record in result: print(record) ``` 以上代码中,首先创建了ODPS连接,然后定义了5个SQL语句。接着使用execute_sql方法同时执行这5个SQL语句,并返回5个查询结果。最后,遍历每个查询结果,打印查询结果中的每一条记录。 2. 使用TableTunnel进行高并发查询 使用TableTunnel进行高并发查询是另一种常见的方法,可以使用TableTunnel的多线程查询功能实现。TableTunnel的多线程查询功能可以同时从多个分区中取数据,并发地进行数据传输。下面是一个示例代码: ```python from concurrent.futures import ThreadPoolExecutor from odps import ODPS from odps.tunnel import TableTunnel from odps.tunnel.pool import TableTunnelPool # 创建ODPS连接 odps = ODPS('your_access_id', 'your_access_key', 'your_project_name', 'your_endpoint') def download_table(table_name): # 创建TableTunnel连接池 pool = TableTunnelPool(odps) # 从连接池中获取TableTunnel连接 tunnel = pool.get_tunnel() # 通过TableTunnel连接进行数据传输 with tunnel.create_download_session(table_name) as download: # 处理下载的数据 for record in download.read_record(): print(f'Table {table_name}, record: {record}') # 创建线程池 executor = ThreadPoolExecutor(max_workers=5) # 提交任务到线程池 table_names = ['table1', 'table2', 'table3', 'table4', 'table5'] for table_name in table_names: executor.submit(download_table, table_name) ``` 以上代码中,首先创建了ODPS连接,然后创建了一个线程池,并提交了5个任务到线程池。每个任务都会使用一个独立的TableTunnel连接池,并下载指定的表。在下载过程中,每个线程都会从连接池中获取一个连接,并使用该连接进行数据传输。传输完成后,连接会自动回收到连接池中,不需要手动关闭。 需要注意的是,以上示例中使用了线程池,线程池的最大并发数由max_workers参数指定,默认值为当前机器的CPU核心数。如果需要修改线程池的配置,可以通过传递参数进行配置,例如: ```python executor = ThreadPoolExecutor(max_workers=10) ``` 以上代码中,将线程池的最大并发数设置为10。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值