Clinkhouse·文本数据导入数据库
TabSeparated – txt格式导入
CSV – txt格式导入
导入数据
cat uid_info.txt | clickhouse-client --query="INSERT INTO test.tmp_uid_info FORMAT TabSeparated"
导出数据
clickhouse-client --query="select * from test.tmp_uid_info FORMAT CSV" > uid_info.csv
替换文本分割符-将竖杠(|) 替换成逗号(,)
sed -i "s/|/,/g" 20220726.txt
将csv文件中的引号“ 替换成空
sed -i "s/\"//g" 202106-202203faultlist.csv
将文本gbk格式转换为utf-8
iconv list.csv -f gb18030 -t utf-8 -o list_2.csv
新增列指定值
awk '{print $0,",新增的列"}' h1.csv >h2.csv
文本内容出现^M 去除方法如下:vi进入文本按 esc 输入:%s/\r// 保存
-- 删除表头
sed -i '1d' "20462-202205.csv" // 删除第一行
sed -i '1d' "20464-202205.csv" // 删除第一行
sed -i '1d' "20465-202205.csv" // 删除第一行
head -n 100 "20464-202205.csv" // 查看前100行
-查看文件第几行到第几行
sed -n '5010,5020'p filename
awk '{if(NR>=5010 && NR<=5020) print $0}' filename.csv
csv 文件导入数据库
指定分割符参数
--format_csv_delimiter="|"
cat 20464-202205.csv | clickhouse-client -h 127.0.0.1 -u default --password xpwd --database default --query "INSERT INTO rx_duizhang_20464 FORMAT CSV"
cat 20462-202205.csv | clickhouse-client -h 127.0.0.1 -u default --password xpwd --database default --query "INSERT INTO rx_duizhang_20462 FORMAT CSV"
cat 20465-202205.csv | clickhouse-client -h 127.0.0.1 -u default --password xpwd --database default --query "INSERT INTO rx_duizhang_20465 FORMAT CSV"
-- 导入大文件时报错,可以使用此命令忽略错误继续导入
cat filename.csv | clickhouse-client -h 127.0.0.1 -u default --password xpwd --database default --input_format_allow_errors_num=1 --input_format_allow_errors_ratio=0.1 --query "INSERT INTO tablename FORMAT CSV"