python 将csv文件导入到doris数据库

最近在实用doris导入数据时,特别是导入百万级别以上的数据,使用FEweb端导入会遇到导入异常,使用Navicate导入sql也会出现异常,特别是max_tablet_version_num参数导致无法高并发执行插入,试过很多方法都不行,发现python有工具包,可以解决问题,现将方法发出来,之后再整合成工具类。

安装依赖包

pip install pydoris
pip install pydoris-client

注意:我使用python3.7无法找到以上安装包,但是使用python311可以,其他版本暂时没有尝试。

以下的上传代码:

from pydoris.doris_client import DorisClient
import requests
import pandas as pd


client = DorisClient()
fe_host = '127.0.0.1'
username = 'root'
passwd = '123456'

fe_http_port = "8030"
fe_query_port = "9030"

database = 'db_name'
table = 'table_name'

doris_client = DorisClient()
doris_client.options.fe_host = fe_host
doris_client.options.fe_http_port = fe_http_port
doris_client.options.fe_query_port = fe_query_port
doris_client.options.username = usern
### 将ORC格式的数据导入到Doris数据库的方法 #### 使用DataX工具进行数据迁移 对于将ORC格式文件中的数据迁移到Doris数据库的任务,可以借助阿里巴巴开源的大规模离线数据同步工具——DataX来实现。通过编写特定配置文件并执行Python脚本来启动此过程[^1]。 ```bash python gen_import_config.py -d doris_database_name -t target_table_name ``` 上述命令用于生成针对目标表的导入配置模板;其中`-d`参数指定目的端所在的数据库名称而`-t`则指明具体要写入哪张表格内。不过需要注意的是,在实际操作前还需进一步调整该配置文档以适应源ORC文件路径以及字段映射关系等细节情况。 #### 配置JSON设置项解析 为了使DataX能够识别来自HDFS上的ORC文件作为输入插件(reader),并且正确无误地把记录送至Apache Doris(即Palo)接收方(writer), 用户应当精心准备一份描述详尽的JSON格式设定档。下面给出了一部分关键性的选项说明: - **job.content[0].reader.name**: 应当被设为`hdfssync`, 表示采用适用于读取分布式文件系统的组件。 - **job.content[0].reader.parameter.path**: 此处需填写待处理ORC文件于Hadoop集群里的绝对地址,支持通配符匹配多个分区下的对象集合。 - **job.content[0].writer.name**: 设置成`dorissync`表明选用专门面向Doris的服务接口完成最终的数据落地工作。 - **job.content[0].writer.parameter.tableName**: 明确指出远程SQL引擎内部的目标逻辑结构体标识符(即Schema名加表名组合)。 - **job.content[0].column[]**: 列出所有参与传输列的名字及其对应类型转换规则,确保两端之间的一致性和兼容性。 #### Apache Flink的角色补充说明 尽管Flink主要服务于流计算场景,但在某些情况下也可以利用其批模式作业能力配合Table API来进行ETL流程开发。如果项目环境中已经部署有较为成熟的Flink生态,则不妨考虑将其纳入考量范围之内。特别是那些体积庞大、复杂度高的半结构化存储介质向关系型仓库转化的需求场合下,Flink凭借强大的表达能力和灵活多变的操作语义或许能提供额外的价值主张[^2]。 然而就单纯解决本次提出的关于Orc转储进入Doris的问题而言,优先推荐基于DataX构建解决方案会更加直接有效一些。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值