- 博客(301)
- 收藏
- 关注

原创 干货 | Kafka 内核知识梳理,附思维导图
前面我们已经分享过几篇Kafka的文章,最近简单梳理了下Kafka内核相关的知识,涵盖了Kafka架构总结,副本机制,控制器,高水位机制,日志或消息存储,消息发送与消费机制等方面知识。文...
2020-05-24 13:57:49
739

原创 HBase实践 | HBase内核优化与吞吐能力建设
前言公司的hbase集群早先是基于社区1.2.4版本进行搭建的,在时延表现方面起初并不十分理想,受GC尖刺的影响非常严重,针对P99响应时延也只能给业务提供不高于100毫秒的SLA承诺,...
2020-04-17 08:02:59
1571
原创 正式告别 ZooKeeper!Kafka 4.0.0 重磅发布 多项新特性解读
同时,由于去除了 ZooKeeper 这一外部依赖,Kafka 在元数据操作的响应速度和一致性方面表现出色,提升了系统的性能和稳定性。综上所述,Kafka 4.0 是一个具有重大意义的版本更新,它带来了架构上的变革、消费者组协议的优化、新增队列功能以及其他多方面的改进和增强。:Kafka 4.0 默认运行在 KRaft(Kafka Raft)模式下,这一模式使得 Kafka 能够内嵌元数据管理,并实现了对 ZooKeeper 的无缝替代。同时,它也简化了消费者的实现逻辑,提升了易用性。
2025-03-26 07:59:13
525
原创 一文读懂通算、智算、超算的区别及应用场景
在人工智能技术如火如荼发展的今天,算力作为人工智能发展的核心支撑,其重要性愈发凸显。通算、智算、超算作为算力的三种主要类型,在人工智能的不同应用场景中发挥着各自独特的作用。以下将详细介绍这三种算力的概念及其应用场景。01 通 算通算即通用计算能力,是计算机系统中最基础的计算能力,用于执行各种常见的计算任务。它不依赖于特定的技术或平台,是计算机系统进行各种计算任务的基础。处理器芯片类型CPU(中央...
2025-03-08 08:59:57
1413
转载 Flink CDC 原理与使用指南
Flink CDC 的核心原理1. CDC 技术基础CDC(Change Data Capture)是一种通过捕获数据库的增量变更(如 INSERT、UPDATE、DELETE 操作)实现数据实时同步的技术。其实现模式主要分为两类: 基于查询的 CDC:通过轮询数据库字段(如时间戳)判断变更,实时性差且对数据库压力大。 基于日志的 CDC:通过解析数据库的事务日志(如 MySQL 的 binl...
2025-03-01 09:36:38
43
转载 持续火热!DeepSeek获顶级域名ai.com重定向
近日,顶级域名ai.com被发现重定向到了中国AI大模型厂商DeepSeek的官网,这是该域名首次转到中国AI厂商,此前都是在ChatGPT、Gemini、x.ai等之间跳转。网友实测确认:据悉,ai.com域名最早在1993年注册,已有30年历史,2023年ChatGPT爆火后,该域名曾跳转至ChatGPT官网,当时甚至有消息称OpenAI以1100万美元买下了该域名。然而,随后该域名又跳转至马...
2025-02-11 09:26:00
40
原创 仅需单卡14G显存!手把手教你训练+推理爆火开源模型 DeepSeek-R1
Deepseek RI最近火爆全网,甚至影响到了全球经济走势和政治格局,不得不说AI依然在迅猛的发展,R1的内置COT理念——就是人类的慢思考。人的大脑有两个系统:系统一基于潜意识,快速做出判断,称为“快思考”;系统二则相反,处理复杂问题,但需要专注力和精力,称为“慢思考”。两者相互影响,大多数偏见来自系统一,但可以通过训练改善。R1开始让AI有了”系统二“的能力,是一种高阶的智慧,最先让AI有慢...
2025-02-09 21:29:53
694
原创 数据工程师如何借力 DeepSeek,在AI浪潮中逆袭成“超级个体”?
引言:当AI开始写SQL,数据工程师会被淘汰吗?凌晨2点,刚处理完数据倾斜问题的老王收到一封邮件——公司新来的实习生用AI工具10分钟生成了他花3小时写的ETL脚本。这场景正在无数企业上演:2024年GitHub统计显示,AI已能自动完成38%的数据开发工作。但真正的危机不是AI替代人类,而是会用AI的工程师淘汰不用AI的工程师。一、别再焦虑!先解决这三个实际问题场景1:半夜被报警吵醒,SQL跑不...
2025-02-08 19:24:31
376
原创 构建您的专属AI助手:在钉钉上部署DeepSeek
引言在这个信息爆炸的时代,拥有一个高效的AI助手变得尤为重要。DeepSeek就是这样一款令人惊艳的AI解决方案,它能够帮助您处理各种日常任务,从日程管理到数据分析无所不能。然而,由于其近期过于火爆,许多用户反馈难以进入使用。今天,我们将介绍如何在钉钉平台上创建一个DeepSeek AI助理,以缓解这一问题。什么是DeepSeek?DeepSeek是一款基于先进的人工智能技术开发的助手软件,旨在为...
2025-02-07 20:24:59
804
转载 构建OLAP全场景,揭秘实时/离线数仓一体化架构
方案背景随着企业的业务数据量和数据源不断增加,分析的难度和复杂度显著提升。AnalyticDB MySQL 提供了一个能整合多类型数据源,确保数据的一致性和完整性、高效的数据分析平台, 支持复杂查询和分析需求,能够快速洞察数据价值,更好地支撑业务决策。方案优势在离线一体化:支持数据实时增删改、具备在线分析和ETL 计算一体化,实现大数据与数据库的融合,通过资源组隔离保证业务稳定运行。简化 ETL ...
2025-01-22 14:42:30
41
转载 化繁为简,从 OLTP 迈入 AnalyticDB MySQL极速分析时代。
阿里妹导读在数据驱动决策的时代,一款性能卓越的数据分析引擎不仅能提供高效的数据支撑,同时也解决了传统 OLTP 在数据分析时面临的查询性能瓶颈、数据不一致等挑战。本文将介绍通过 AnalyticDB MySQL + DTS 来解决 MySQL 的数据分析性能问题。引言在应对大规模业务数据的在线统计分析需求时,传统数据库常常难以满足高性能和实时分析的要求。随着业务数据的不断累积,数据量迅速膨胀,虽然...
2025-01-08 19:07:24
42
转载 招聘|阿里云智能-解决方案工程师(P7、P8)
01岗位介绍高级解决方案工程师解决方案工程师(P7~P8)急招,在线等!名额有限,招满即止~工作经验:8年以上,优秀候选人可放宽条件学历要求:统招本科及以上职位描述:1、精准定位用户需求,结合阿里云产品,从方案架构、云产品组合使用以及操作步骤等维度,设计最佳技术方案,并且创作高质量、具备完整端到端能力的技术解决方案,增强用户体验。2、洞察技术热点,结合云产品与热点,创作高质量的技术解决方案。3、协...
2024-12-05 09:36:45
102
转载 内含福利 | StarRocks 2024年度技术峰会,与30+全球企业共探湖仓技术创新
StarRocks 社区的年度盛会——StarRocks Summit Asia 2024 将于 12 月 7 日在北京隆重登场!StarRocks 社区作为连接用户、平台方、业务方、技术爱好者与学术人员的开放平台,始终致力于打造标准化的行业解决方案,让每一位参与者都能在实践中汲取经验,在交流中碰撞创新。在过去三年的交流中,我们与数百家社区用户共同探讨了大数据领域的主要挑战:随着实时分析需求的激增...
2024-11-29 11:06:31
64
转载 解决方案工程师(P7~P8)急招,在线等!
高级解决方案工程师招聘主体:阿里云智能集团全资子公司诚云科技官网:https:/www.aliyun.com/solution/tech-solution/ai解决方案工程师(P7~P8)急招,在线等!名额有限,招满即止~工作地点:杭州工作经验:8年以上,优秀候选人可放宽条件学历要求:统招本科及以上职位描述:1、精准定位用户需求,结合阿里云产品,从方案架构、云产品组合使用以及操作步骤等维度,设计最...
2024-11-29 10:55:19
59
转载 性能超越Spark 1330% 倍 Lakehouse引擎
性能超越Spark 13.3 倍,多项性能指标数倍于主流开源引擎 | 云器Lakehouse发布性能测试报告云器Lakehouse正式发布性能测试报告????离线批处理:在复杂批处理任务中,云器Lakehouse相较Spark表现出13.31倍性能提升。????即席查询:在交互式分析场景下,云器Lakehouse相较Trino表现出9.84倍性能提升。????实时分析:在基于宽表的实时分析场景下,云器Lakehou...
2024-11-18 21:00:47
63
转载 什么是湖仓一体数据平台?怎么构建湖仓一体数据平台
什么是湖仓一体数据平台?世界各地的组织都在寻找存储解决方案来管理大数据的数据量、延迟时间、弹性和数据访问要求。最初,很多公司利用现有的技术栈,尝试让数据湖提供与仓库相同的功能,调整数据仓库以处理大量的半结构化数据,或选择将数据保留在这两种系统中。最终,这些方法导致了成本居高不下、用户不愉快以及整个企业的数据重复。数据湖仓一体已成为一种新的混合数据架构,旨在提供数据仓库和数据湖的所有出色优势,同时消...
2024-11-04 21:35:41
105
转载 震惊!Flink PMC 孙金城大佬竟然免费搞工作难题咨询~
孙金城简介:Apache Flink PMC ,Apache Beam Committer,Apache IoTDB PMC ,Apache ShenYu PMC,ALC Beijing 成员,Apache ShenYu 导师,Apache 软件基金会成员。技术领域流计算和时序数据存储。关注 “为人门客” 视频号,解答你工作的疑惑,帮助你实现更好的职业提升。...
2024-09-20 21:16:00
192
转载 AI浪潮来袭,5门精选课程带你入门AI大模型
OpenAI 创始人 Sam Altman 说,“通用人工智能(AGI)已经离我们不远了”。当下,人工智能成了新时代的必修课,每个人都需要一些 AI 知识来升级自己,才能与时代同行。为了帮助大家更好地掌握AI技术,今天特别推荐几门全面、系统的AI课程。AI大模型之美这门课程就是要把新一代 AI 应用开发的方法和机会分享给你。无论你是产品经理还是工程师,乃至于 IT 行业之外的业务人员,都值得...
2024-02-22 18:34:08
771
转载 《锋哥聊数仓》技术分享群开通了~
为了服务好锋哥聊数仓的分析,从昨天开始逐渐拉了一些粉丝群,已经三个群,基本都是很快达到200的上线,不能扫码进群,为了让更多朋友大家一起交流数仓技术,在拉三个社群,大家自行扫码进入,已经加入的人员请不要在扫码了,给其他人扫码进...
2024-01-29 18:11:43
232
转载 Apache Paimon 在网易传媒推荐场景实践
背景网易新闻是中国领先的全媒体新闻门户网站,提供全面、及时、权威的新闻资讯服务。推荐产品团队主要致力于网易新闻 APP 端内资讯的个性化推荐,加强用户粘性,提高用户的阅读体验。随着业务的持续发展,原有的推荐数仓架构逐渐满足不了业务对数据的多样性需求,数据处理流程也愈发复杂。近期,我们与杭研同事一起深入调研了数据湖方案 Apache Paimon,以此为底座,旨在解决传统数仓在数据更新能力上存在的痛...
2023-11-29 09:00:15
380
转载 Flink CDC结合Doris flink connector实现Mysql数据实时入Apache Doris
本文通过实例来演示怎么通过Flink CDC 结合Doris的Flink Connector实现从Mysql数据库中监听数据并实时入库到Doris数仓对应的表中。1.什么是CDCCDC 是变更数据捕获(Change Data Capture)技术的缩写,它可以将源数据库(Source)的增量变动记录,同步到一个或多个数据目的(Sink)。在同步过程中,还可以对数据进行一定的处理,例如分组(GROU...
2023-11-28 17:27:00
3486
2
转载 再发故障!阿里云:道歉
2023年11月27日,阿里云部分地域云数据库控制台访问异常。开始时间 (GMT+8) :2023-11-27 09:16结束时间 (GMT+8) :2023-11-27 10:58受影响产品:云原生数据仓库 AnalyticDB PostgreSQL版、图数据库、云原生内存数据库Tair、云数据库 Redis 版、云原生关系型数据库 PolarDB、云数据库专属集群、云数据库 MySQL 版、云...
2023-11-28 09:06:11
199
转载 【云栖2023】王峰:开源大数据平台3.0技术解读
本文根据2023云栖大会演讲实录整理而成,演讲信息如下:演讲人:王峰 | 阿里云研究员,阿里云计算平台事业部开源大数据平台负责人演讲主题:开源大数据平台3.0技术解读实时化与Serverless是开源大数据3.0时代的必然选择阿里云开源大数据平台孵化于阿里巴巴集团内部业务。早在2009年,我们就开始采用开源 Hadoop 技术体系来服务阿里内部快速发展的电商业务。在阿里巴巴内部这套 Hadoop ...
2023-11-14 13:01:56
224
转载 再谈数据架构, 探讨 Data 和 AI 结合的新产品形态
编辑| 张俊宝深度学习诞生 10 年,LLM (大语言模型技术)终于带来 AI 平民化。ChatGPT 爆火后,AIGC 浪潮席卷全球。AI 作画、AI 写歌、AI 生成视频…… 全球大厂纷纷推出 AIGC 应用,让 AI 变得“触手可及”。从技术角度看,基于海量数据构建的大模型能够进行相对独立的推理和判断,让企业看到了 AI 与 Data 的技术融合已经成为当下重要的发展趋势之一。如今,A...
2023-07-08 08:16:30
1573
转载 Apache Doris 2.0-beta 版本发布:盲测性能 10 倍提升,更统一的多场景极速分析体验...
亲爱的社区小伙伴们,我们很高兴地向大家宣布,Apache Doris 2.0-beta 版本已于 2023 年 7 月 3 日正式发布!在 2.0-beta 版本中有超过255位贡献者为 Apache Doris 提交了超过3500个优化与修复,欢迎大家下载使用!下载链接:https://doris.apache.org/downloadGitHub 源码:https://github.c...
2023-07-04 18:28:45
513
转载 《数据库发展研究报告(2023年)》正式发布,文末附下载方式
7月4日,2023可信数据库发展大会(以下称“大会”)主论坛在北京国际会议中心成功召开。大会以“自主创新 引领”为主题,邀请行业内近百位演讲专家围绕数据库技术、产业和生态热点进行研讨,与一同到会的数千开发者及关注数据库发展的行业人员共同论道我国数据库自立自强之路,探索新形势下我国数据库产业可持续、高质量发展方法。会上,中国通信标准化协会互联网与应用技术工作委员会主席何宝宏代表中国通信标准化协会正...
2023-07-04 18:28:45
774
转载 Apache Doris 2.0-beta 版本发布:盲测性能 10 倍提升,更统一的多场景极速分析体验...
亲爱的社区小伙伴们,我们很高兴地向大家宣布,Apache Doris 2.0-beta 版本已于 2023 年 7 月 3 日正式发布!在 2.0-beta 版本中有超过255位贡献者为 Apache Doris 提交了超过3500个优化与修复,欢迎大家下载使用!下载链接:https://doris.apache.org/downloadGitHub 源码:https://github.c...
2023-07-04 18:28:45
143
转载 Apache Doris 2.0-beta 版本发布:盲测性能 10 倍提升,更统一的多场景极速分析体验...
亲爱的社区小伙伴们,我们很高兴地向大家宣布,Apache Doris 2.0-beta 版本已于 2023 年 7 月 3 日正式发布!在 2.0-beta 版本中有超过255位贡献者为 Apache Doris 提交了超过3500个优化与修复,欢迎大家下载使用!下载链接:https://doris.apache.org/downloadGitHub 源码:https://github.c...
2023-07-04 18:28:45
119
转载 《Hadoop HDFS深度剖析与实践》新书推荐与回馈新书活动 | 回馈赠书
作为一款经典的Master-Slave架构的分布式存储系统,HDFS自诞生至今,已然成为事实上的大数据标准和业内不可忽视的存储基础设施。单集群能够维护并管理PB甚至EB级的数据规模存储,不少企业的在线集群规模达到万台,国内外比较有代表性的公司包括Uber、京东、美团、快手、B站等都选择HDFS,为企业和业务生产带来巨大收益。01HDFS核心优势HDFS能够长期经久不衰,有其核心竞争优势。这里简要总...
2023-06-30 17:04:22
658
2
转载 阿里巴巴以全新姿态奔向未来
今天,阿里巴巴控股集团董事会主席兼CEO张勇通过全员信宣布,阿里的自我变革正顺利平稳推进,1+6+N的全新业务集群基本成型,各业务集团董事会已开始运行,多个业务的上市和融资计划也已开展,控股集团将主要承担创新孵化大本营角色,整个阿里巴巴正以全新姿态奔向未来。张勇同时宣布,阿里云智能集团完全分拆已经启动,正处于向上发展的最关键时期,必须全身心投入。同时为了适应未来发展规范和要求,其个人不宜再同时担任...
2023-06-20 17:11:14
149
转载 从 Hadoop 到 Snowflake,2023年数据平台路在何方?
随着大数据技术的融合发展,企业对数据平台的要求越发多元:不仅要能够整合集成、存储、管理海量的多源异构数据,还要能够提供连通业务的多样化数据服务能力,并且能够支持不同应用、不同场景中的落地。从 Hadoop 到 Snowflake ,数据平台的发展呈现出清晰的路径,在与云的结合上也探索了丰富的技术实践。那么,数据平台的下一次“潮涌”何时到来?中国版 Snowflake 何时出现?为了探讨问题的答案,...
2023-06-20 17:11:14
326
转载 R.I.P. 瑾以此文纪念陈皓(左耳朵耗子)
采访嘉宾 | 陈皓,MegaEase 创始人“你要问我现在是不是最好的时代,我觉得从 1998 年我职业生涯开启到现在,我经历过的这 20 多年,就是最好的时代。未来是不是比这更好我不知道。但我没有生不逢时,我有幸生在这样一个黄金年代,经历过了许多最刺激的事情”。今年 45 岁(2021年)的陈皓(网名:左耳朵耗子),是一位骨灰级的老程序员。早先,他“叛逆”地从老家给他分了房子的国企离职,毅然决定...
2023-05-15 19:25:28
268
转载 Kafka 高可靠高性能原理探究(万字干货)
引言在探究 Kafka 核心知识之前,我们先思考一个问题:什么场景会促使我们使用 .Kafka?说到这里,我们头脑中或多或少会蹦出异步解耦和削峰填谷等字样,是的,这就是 Kafka 最重要的落地场景。异步解耦:同步调用转换成异步消息通知,实现生产者和消费者的解耦。想象一个场景,在商品交易时,在订单创建完成之后,需要触发一系列其他的操作,比如进行用户订单数据的统计、给用户发送短信、给用户发送邮件等...
2023-04-22 08:16:09
398
转载 谷歌BigQuery创始成员谈论大数据时代已经结束
作者 | JORDAN TIGANI译者 | 红泥策划 | 冬梅随着云计算时代的发展,大数据实际已经不复存在。在真实业务中,我们对大数据更多的是存储而非真实使用,大量数据现在已经变成了一种负债,我们在选择保存或者删除数据时,需要充分考虑可获得价值及各种成本因素。十多年来,人们一直很难从数据中获得有价值的参考信息,而这被归咎于数据规模。“对于你的小系统而言,你的数据量太庞大了。”而解决方案往往是购买...
2023-04-19 17:35:44
271
转载 数据湖存储的安全写入之道
背景数据湖的兴起,给数据存储带来了一轮新的革命。越来越多的公司选择将存储切换到云上对象存储。因为云上对象存储往往意味着大容量、低成本、易扩容。说到对象存储,必然涉及到 S3 协议,S3 协议已经事实上成为对象存储的通用协议。不过,市面上不少数据平台公司,也会选择基于 S3 协议又兼顾 Hadoop 使用习惯的 S3A Connector,比如 Databricks 在对象存储上提供的表数据结构 D...
2023-03-15 09:17:44
624
转载 CDC | 基于数据湖格式构建流式增量数仓
摘要:本文整理自阿里云开源大数据平台技术专家毕岩(寻径)在 Apache Con ASIA 的分享。本篇内容主要分为四个部分:湖格式& Hudi & CDC湖格式设计实现 CDC 的思考Hudi CDC 实现湖格式 Streaming 的优化2021年中 Databricks 发布了一篇基于 Delta Lake 实现 CDC 场景的介绍文档,2022年初我们在阿里云EMR 内部 ...
2023-02-24 12:39:42
450
转载 网易经验规整:ClickHouse开发与使用规范大全
导读:ClickHouse作为一款开源列式数据库管理系统(DBMS)近年来备受关注,主要用于数据分析(OLAP)领域。作者根据以往经验和遇到的问题,总结出一些基本的开发和使用规范,以供使用者参考。随着公司业务数据量日益增长,数据处理场景日趋复杂,急需一种具有高可用性和高性能的数据库来支持业务发展,ClickHouse是俄罗斯的搜索公司Yandex开源的MPP架构的分析引擎,号称比事务数据库快100...
2023-02-15 18:05:26
605
原创 Scrapy源码解读
Scrapy一个比较完整的爬虫框架,包含了爬取任务的调度、多个线程同时爬取(异步多线程,不用等一个请求完成后才开始另一个请求)、自动过滤重复的链接等功能。使用者通过定义比较简单的爬虫类(例如目标网址、爬取的具体页面元素、存储的格式字段、数据清理逻辑),剩余的就可以交给scrapy完成爬取工作。TwistedTwisted 是一个事件驱动的网络引擎。Twisted 是用于生成可扩展的跨平台网络服务器...
2023-02-11 11:53:49
849
转载 诺亚财富 X Hologres : 统一OLAP分析引擎,全面打造金融数字化分析平台
客户简介诺亚控股有限公司以“诺亚财富”为品牌,源起于中国,是首家在港美两地上市的中国独立财富管理机构,首家开创了财富管理和资产管理的双轮驱动业务模式,同时也是国内首家获得标准普尔“投资级”评级的财富管理公司,公司业务涵盖财富管理、资产管理和其他业务。诺亚数据智能部门负责公司大数据体系框架建设,主要工作是支撑日常的BI分析,数据看板,人群画像,自助分析等场景。在公司数字化转型的背景下,业务增长带来了...
2022-10-31 13:00:30
260
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人