基于pyodps读本地文件上传到odps

huobumingbai1234

已于 2022-06-01 20:04:33 修改

阅读量2.8k

点赞数 3

CC 4.0 BY-SA版权

分类专栏： odps 阿里云 python 文章标签： odps python 数据挖掘

于 2020-08-03 20:56:44 首次发布

本文链接：https://blog.youkuaiyun.com/huobumingbai1234/article/details/107773275

阿里云同时被 3 个专栏收录

13 篇文章

订阅专栏

odps

12 篇文章

订阅专栏

python

7 篇文章

订阅专栏

本文介绍了一种利用Python将包含特殊字符的本地文件上传至阿里云ODPS的方法，通过pandas读取CSV文件，并使用pyodps进行数据处理及上传，解决了DataWorks界面操作存在的问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本地文件有传输到odps的需要，虽然阿里云dataworks有这样的操作界面，但是文件内容有个逗号啥的就会有问题，所以专门写个脚本处理这一步。

处理逻辑：

pandas_read_csv ---->pyodps的dataframe------>odps

代码如下，简单方便：

# -*- coding: utf-8 -*-

import pandas as pd
from odps import ODPS
from odps.df import DataFrame
o = ODPS(
    access_id='********',
    secret_access_key='***********',
    project='**************',
    endpoint='http://service.odps.aliyun.com/api'
)




#写入的时候是按照列名匹配的，所以对这个dataframe重命名
dewu_offline = pd.read_csv("/Users/wangyuhang/Downloads/shihuo_20200802.tsv",sep='\t',header=0,
                             names=['order_no',
                                    'sub_order_no',
                                    'biz_type',
                                    'biz_channel',
                                    'biz_code',
                                    'biz_id',
                                    'sub_order_status',
                                    'pay_amount',
                                    'discount_amount',
                                    'inventory_id',
                                    'spu_id',
                                    'sku_id',
                                    'sku_title',
                                    'sku_price',
                                    'sku_count',
                                    'buyer_note',
                                    'deposit_amount',
                                    'poundage_amount',
                                    'poundage_info',
                                    'item_info',
                                    'close_type',
                                    'close_time',
                                    'feature',
                                    'is_del',
                                    'create_time',
                                    'modify_time',
                                    'product_amount',
                                    'freight_amount',
                                    'sku_logo',
                                    'delivery_deadline',
                                    'tab_tag',
                                    'size',
                                    'identify_status',
                                    'pay_status',
                                    'source_name',
                                    'customized_parameter',
                                    'no_use'])

dewu_offline_all = DataFrame(dewu_offline)

print(dewu_offline_all.head(5))

#如果这里是个非分区表
#dewu_offline_all.persist('tmp_shihuo_du_order_from_dewu_offline',odps=o)

dewu_offline_all.persist('tmp_shihuo_du_order_from_dewu_offline_all', partition='dt=20200802',odps=o,create_partition=True)

所以感觉python有时候还是方便的