数据导入时出现的问题:

博客介绍了在数据平台导入数据的方法。包括新建表时注意分隔符选取,将csv转为txt去掉表头,可直接替换后缀;选择导入的txt文件,支持utf - 8,tab作分隔符,最大导入100M。还提到处理含不能识别字符串的csv数据的办法,以及建表语句的转载来源。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

## 在数据平台导入数据:
1、新建表,注意分隔符的选取,按照txt中的格式确定是','   还是 ‘\t’ ;

2、在将csv转为txt之后,去掉表头, 将csv转为txt时可以选择直接将后缀进行替换,不会出错;(尽量不要使用将csv另存为txt的方法,这样会出错)

3、选择导入的txt文件,支持utf-8(用 sublime 转),tab作为分隔符 (建表要指明分隔符)
最大只能导入100M,最后选择是否追加

----------------------------------------------------------------------------------------------------------------------------------------------------------

MY 给我的数据,.csv格式的,之前在转为txt 时,存在一些不能识别的字符串,所以在导入BDP时有大量的重复的user_log_acct
因此,也可以直接将.csv格式的数据给复制到TXT,然后,分隔符替换为'tab' 就可以。
我有重新生成了一个表,这次是不含有重复的。

CSV与TXT没有本质上的区别

--------------------------------------------------------------------------------------------------------------------------------------------------

建表语句:

DROP TABLE IF EXISTS dev.dev_jiadian_user_yuge;

CREATE TABLE dev.dev_jiadian_user_yuge(
    user_log_acct      STRING comment 'user_pin',
    label         DOUBLE comment 'jiadian prob'
    
) 
ROW FORMAT DELIMITED        
FIELDS TERMINATED BY '\t'

STORED AS TEXTFILE;

 

 

转载于:https://www.cnblogs.com/Allen-rg/p/9568086.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值