Doris数据同步:stream load Java工具类实现

导入原理自己百度吧,工具类需要引入一个依赖

<dependency>
            <groupId>org.apache.httpcomponents</groupId>
            <artifactId>httpclient</artifactId>
            <version>${httpcomponents.version}</version>
        </dependency>

工具类:

1.导入csv文件,文件格式如下:

1,2,,3,4

1,2,3,4,5

public class DorisStreamLoader {
    /**
     * 用户名
     */
    private final String user ;
    /**
     * 密码
     */
    private final String password;

    /**
     * doris stream load url
     */
    private final String loadUrl ;

    /**
     *
     * @param host FE ip地址
     * @param port FE 端口
     * @param database 数据库名
     * @param table 表名
     * @param user 用户名
     * @param password 密码
     */
    public DorisStreamLoader(String host, int port, String database, String table, String user, String password) {
        this.user = user;
        this.password = password;
        this.loadUrl = String.format("http://%s:%s/api/%s/%s/_stream_load", host, port, database, table);
    }

    /**
     * 构建HTTP客户端
     */
    private final static HttpClientBuilder httpClientBuilder = HttpClients
            .custom()
            .setRedirectStrategy(new DefaultRedirectStrategy() {
                @Override
                protected boolean isRedirectable(String method) {
                    // If the connection target is FE, you need to deal with 307 redirect。
                    return true;
                }
            });

    /**
     * 文件数据导入
     * @param inputStream 要导入的文件流
     * @throws Exception Exception
     */
    public void load(InputStream inputStream,String label ) throws Exception {
        try (CloseableHttpClient client = httpClientBuilder.build()) {
            HttpPut put = new HttpPut(loadUrl);
            put.removeHeaders(HttpHeaders.CONTENT_LENGTH);
            put.removeHeaders(HttpHeaders.TRANSFER_ENCODING);
            put.setHeader(HttpHeaders.EXPECT, "100-continue");
            put.setHeader(HttpHeaders.AUTHORIZATION, basicAuthHeader(user, password));

            // You can set stream load related properties in the Header, here we set label and column_separator.
            put.setHeader("label", label);
            put.setHeader("column_separator", ",");
            // Set up the import file. Here you can also use StringEntity to transfer arbitrary data.
            InputStreamEntity entity = new InputStreamEntity(inputStream);
            put.setEntity(entity);
            log.info("开始同步doris,url={},label={}",loadUrl,label);
            try (CloseableHttpResponse response = client.execute(put)) {
                String loadResult = "";
                if (response.getEntity() != null) {
                    loadResult = EntityUtils.toString(response.getEntity());
                }

                final int statusCode = response.getStatusLine().getStatusCode();
                if (statusCode != 200) {
                    throw new IOException(String.format("Stream load failed. status: %s load result: %s", statusCode, loadResult));
                }
                log.info("Get load result: {}" , loadResult);
            }
        }
    }

    /**
     * JSON格式的数据导入
     * @param jsonData String
     * @throws Exception Exception
     */
    public void loadJson(String jsonData) throws Exception {
        try (CloseableHttpClient client = httpClientBuilder.build()) {
            HttpPut put = new HttpPut(loadUrl);
            put.removeHeaders(HttpHeaders.CONTENT_LENGTH);
            put.removeHeaders(HttpHeaders.TRANSFER_ENCODING);
            put.setHeader(HttpHeaders.EXPECT, "100-continue");
            put.setHeader(HttpHeaders.AUTHORIZATION, basicAuthHeader(user, password));

            // You can set stream load related properties in the Header, here we set label and column_separator.
            put.setHeader("label", UUID.randomUUID().toString());
            put.setHeader("column_separator", ",");
            put.setHeader("format", "json");

            // Set up the import file. Here you can also use StringEntity to transfer arbitrary data.
            StringEntity entity = new StringEntity(jsonData);
            put.setEntity(entity);

            try (CloseableHttpResponse response = client.execute(put)) {
                String loadResult = "";
                if (response.getEntity() != null) {
                    loadResult = EntityUtils.toString(response.getEntity());
                }

                final int statusCode = response.getStatusLine().getStatusCode();
                if (statusCode != 200) {
                    throw new IOException(String.format("Stream load failed. status: %s load result: %s", statusCode, loadResult));
                }
                log.info("Get load result: {}" , loadResult);
            }
        }
    }

    /**
     * 封装认证信息
     * @param username String
     * @param password String
     * @return String
     */
    private String basicAuthHeader(String username, String password) {
        final String tobeEncode = username + ":" + password;
        byte[] encoded = Base64.encodeBase64(tobeEncode.getBytes(StandardCharsets.UTF_8));
        return "Basic " + new String(encoded);
    }


    public static void main(String[] args) throws Exception {
        DorisStreamLoader streamLoader = new DorisStreamLoader("zzxczxc", 8888, "database", "table", "user", "password");

    }
}

### 不同数据中台开源项目的优劣与特点 #### Doris (原名 Palo)[^1] Doris 是一款由阿里巴巴集团开发并开源的大规模实时数据仓库。其核心优势在于高效的查询性能、强大的分布式计算能力和灵活的扩展性。适用于需要处理大规模结构化数据的企业场景,能够满足复杂的分析需求。 - **优点**: 提供高性能的实时数据分析能力;支持多维分析和复杂查询操作;易于部署和维护。 - **缺点**: 更专注于OLAP(联机分析处理),对于ETL(Extract, Transform, Load)等数据管道的支持相对较弱。 #### AllData 数据中台[^4] AllData 数据中台是一个综合性的企业级解决方案,提供了丰富的功能模块,涵盖了从数据集成到BI报表的全流程管理。以下是它的主要特性: - **数据集成**: 支持多种异构数据源的接入,实现跨平台的数据融合。 - **数据质量管理**: 集成了全面的数据质量检测机制,保障数据准确性。 - **元数据管理**: 定义清晰的元数据管理体系,便于追踪数据血缘关系。 - **数据服务层**: 提供标准化的服务接口,方便下游应用用。 然而,由于其设计目标较为广泛,可能导致某些特定领域的能力不如专用工具突出。 #### 开源数据采集工具对比[^2] 除了上述提到的整体型数据中台外,在具体环节上也有许多优秀的开源组件可供选择。例如: - **Sqoop & DataX**: 这两类工具有助于批量迁移数据库中的表记录至HDFS或其他存储介质; - **Flume & Logstash**: 则更适合日志类半/无固定模式的信息捕获工作流; - 而像StreamSets这样的产品则兼顾两者之间的平衡点——既可应对传统的关系型事务又能适应新兴的消息队列架构下的动态变化环境。 #### 可视化方面的需求补充[^3] 尽管当前存在不少成熟的前端展示框架比如ECharts可以很好地完成大部分常规任务指标跟踪图绘制等工作,但对于更深层次的研究用途来说可能仍显不足之处。因此引入类似于R语言包GGPlot这样具备高度定制灵活性特性的新成员将是未来发展的方向之一。 ```python import pyecharts.options as opts from pyecharts.charts import Bar bar = ( Bar() .add_xaxis(["衬衫", "羊毛衫", "雪纺衫", "裤子", "高跟鞋", "袜子"]) .add_yaxis("商家A", [5, 20, 36, 10, 75, 90]) .set_global_opts(title_opts=opts.TitleOpts(title="主标题")) ) bar.render_notebook() # 展示图表效果 ``` 以上代码片段展示了如何通过Python绑定版PyEcharts快速生成柱状统计图形实例。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值