大数据
文章平均质量分 95
ConradJam
陈政羽,Apache Flink 中文社区志愿者,专注于分享Flink文章和Java大数据相关知识。欢迎关注我多多支持
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Flink 1.14 前言预览
本文由我进行整理,整理后发布至开源社区。内容源自阿里巴巴技术专家宋辛童 (五藏) 在 8 月 7 日线上 Flink Meetup 分享的《Flink 1.14 新特性预览》。主要内容为:简介 流批一体 Checkpoint 机制 性能与效率 Table / SQL / Python API 总结GitHub 地址https://github.com/apache/flink社区文章仓库整理地址https://github.com/czy006/FlinkClub欢迎大家给.原创 2021-09-03 17:52:49 · 425 阅读 · 0 评论 -
CarbonData集成 Presto(Trino)(1)- 介绍 & 环境篇
个人介绍有幸在开源之夏选上课题基于CarbonData 之 Presto 优化课题,这个课题主要是针对Presto使用CarbonData查询上做更多的一些优化。这个课题对于我来说十分有挑战点,涉及大数据领域的组件十分多,首先CarbonData作为大数据的一种文件存储格式,在OLAP计算引擎上的查询加速实现有助于数据更快的查询和产出;其次大数据涉及的组件和版本比较广泛,在测试、兼容各种方面带来的挑战会很多,例如Hadoop、Spark、Presto(Trino)、Hive等多个开源大数据组件的协同运行和原创 2021-07-28 22:20:57 · 912 阅读 · 0 评论 -
Flink CDC 2.0 设计方案
文章介绍:如何将数据库中的数据接入数据仓库/数据湖是数仓建设需要考虑的关键一环。今天就由来自阿里的徐榜江(雪尽)老师带来的分享Flink-CDC 2.0 设计方案。徐榜江(雪尽)老师就职于阿里巴巴,目前主要担任FlinkSQL的研发工作。今天带来的Flink-CDC 2.0 设计方案,首先先会对CDC进行简单的概述和解决场景描述,相对比于传统数据同步方案,Flink-CDC 数据同步方案的优缺点进行简单概括,同时分析 Flink-CDC 架构的优势详细解读无锁设计和全量阶段并发设计以及CDC后续的一些规划本原创 2021-07-25 10:35:53 · 4229 阅读 · 2 评论 -
深入解读 Flink SQL 1.13
深入解读 Flink SQL 1.13文章介绍:Flink1.13版本于最近发布了,里面有比较多新的Feature和特性,今天就由我和徐榜江老师带着大家一起去探寻这些新特性,还有一些改进。徐榜江老师目前就职于阿里巴巴 Flink-SQL引擎团队,主要负责社区的SQL引擎模块开发。这篇文章一共会分为4个部分,首先我们会先给大家介绍Flink-SQL在1.13版本上面整体的一个改动,还有一些核心Feature的解读和重要改进,最后就是总结以及Flink1.14一些功能提前和大家剧透。作者:徐榜江 (Apac原创 2021-07-12 15:53:44 · 2660 阅读 · 1 评论 -
MongoDB与Spark整合的环境搭建
Spark介绍 Spark是加州大学伯克利分校AMP实验室(Algorithms, Machines, and People Lab)开发通用内存并行计算框架。Spark在2013年6月进入Apache成为孵化项目,8个月后成为Apache顶级项目,速度之快足见过人之处,Spark以其先进的设计理念,迅速成为社区的热门项目,围绕着Spark推出了Spark SQL、Spark...原创 2018-09-12 11:00:43 · 9378 阅读 · 0 评论
分享