- 博客(2103)
- 资源 (1)
- 收藏
- 关注
原创 12天16场大数据模拟面试和复盘,以下是总结。
很多的同学在最初版的简历中「定位」较低,我经常听到的话是:「我在这个项目中只参与了xx部分的开发,其他的内容我不了解」,「我只做了xx的开发,yy内容是其他人做的,用的平台的能力」。这里我要跟大家说的是,我们在总结过去的工作履历时,首先站的位置一定是一个总揽全局的视角,是站在一个更高维度的层面去看待项目本身,不能站在一个基层的开发的角度去审视当前的项目。简历中的基本错误要坚决避免,因为有相当一部分的面试官看的非常仔细,会针对你的简历逐行阅读和提问,一个结构优雅,排版细致的简历给人的第一印象是非常好的。
2025-08-18 08:30:40
630
原创 【2025年上半】Doris在各大公司生产实践方案和优化总结
这里我们必须要提一个能力,Doris在2.1版本中引入了 Job Scheduler 功能,实现了自主任务调度能力,调度的精准度可达到秒级,这个能力大家可以谨慎评估接入使用,更推荐的是结合第三方的调度框架使用。实践证明,以Doris引擎为驱动的准实时数仓模式,有效解决了数据生产和查询的难题,同时满足业务对数据时效性和灵活性的需求。在该架构中,利用Doris的实时写入能力(如KafkaToDoris实现秒级延迟写入),配合可靠的 5、10、15、30分钟的调度保障能力,实现了业务数据的微批处理。
2025-08-05 08:30:19
884
原创 早7晚11,大厂节奏崩不住了!附生存落地指南。
这是很多新人小伙伴,无论是应届生初入职场,或者从一家小而美的公司进入中大公司,尤其是几家工作节奏非常快的公司,遇到的第一个问题,环境改变很难适应。新人进入新的环境后,你需要做的是快速熟悉各种工具,包括线上沟通,打卡,公司IT服务等;并且十分建议大家主动找到你的上级沟通,这个沟通一般是在入职1周左右发起,把当前遇到的问题,未来工作计划聊清楚。迅速熟悉团队的文档,了解团队大概架构,核心的项目进展,不用追求细节,只求建立基本的认识。经过这四个阶段,恭喜你,你就可以完成在新的环境落地,生存下来了!
2025-08-01 17:01:32
395
原创 又被拷打了!我的锅。
我们非常理解大家在这个过程中的煎熬,你要做的是抛出问题,然后会得到正确的答案,这个过程没有人是一帆风顺的。并且作为求职者,在当前的大环境下,要主动去了解目标岗位的要求,个人需要重点准备的内容,如果大家不确定,这个过程我们会帮大家做好判断。此外,一些中大公司的面试要特别注意,这些中大厂的面试时有冷冻期的,一般是6个月甚至更长,而且面试过程会记录到系统中,所以要谨慎对待。每一次面试都是一次对自身掌握知识的查漏补缺,对于缺乏判断力的部分同学来说,可以拿着录音或者面试笔记,我们会协助进行复盘。
2025-07-29 11:58:29
357
原创 菠菜公司开了60K,坐牢还是坐班?
如果你对这类岗位感兴趣,可以多多搜集相关资料,例如upwork、AbetterWeb3等等网站,此外需要自己学习相关领域的专业知识。随着web3,区块链等的兴起,加上过去几年类似zoom、teams这样的线上办公平台的兴趣,很多公司都有了remote岗位。例如根据笔者的了解,web3的岗位有钱包相关、智能合约、数据开发等各种岗位,他们的共同点是薪水非常高,全球灵活办公等。最后,带个免责声明,本文纯属分享他人经历,不做职业建议,不推荐风险业务关联公司,其中风险请读者自行甄别。大家好,今天分享的内容有点劲爆。
2025-07-25 08:31:28
183
原创 AI融合存算分离|Flink2025年核心更新汇总
这个能力主要是为了应对TB级别的状态存储与高吞吐、低延迟的访问要求,Flink2.0正式推出解耦式状态管理架构,通过异步执行框架ForSt和分层存储系统实现状态与计算分离,利用廉价的对象存储来共享数据,从而实现更灵活的资源调度、更高的可扩展性和更轻量稳定的容错能力。Flink社区的这种前瞻性考量也是非常值得称道,如果类似Flink、Spark这样的框架支持通过SQL和大模型进行交互,通过内置函数调用大模型服务,进而实现基于Flink/Spark SQL完成数据清洗、分析处理到AI推理的全链路实时计算。
2025-07-23 08:30:26
851
原创 面试复盘,数据湖部分面试官关注什么?
其次在引擎侧,很多公司和云平台上的产品会针对性的做一些优化,例如:产生回撤信息最根本的一个原因是不断地向下游多次发送更新结果,所以为了减少更新的频率并降低并发,可以把更新结果累计一部分之后再发送出去;最后,给自己打个广告。我们拿Paimon举例,这个组件有自己的特性,例如支持流批读写,分钟级的数据新鲜度,主键和非主键表,此外Paimon还有维度表能力,列更细能力等。因此在大多数的场景中,我们都强烈建议在ODS做好数据的乱序处理,尤其是下游是主键表的情况,如果不做这种处理很容易导致最终的结果是错误的。
2025-07-21 18:02:33
479
原创 3年前的Flink任务优化,2025年还有效吗?
其他的优化例如,双流关联的主键优化,调整多流join顺序缓解state放大,dag子图复用等等大家可以酌情使用,对线上任务影响程度不是十分明显。此外最大的问题是,Mini-batch的开和关会带来Flink任务的DAG发生改变,导致状态不兼容,需要特别注意⚠️!经过优化器识别后,Flink可以只使用一个共享状态实例,而不是三个状态实例,可减少状态的大小和对状态的访问。三年后的今天,我们站在生产实践的角度,总结一下哪些优化手段是比较推荐的,按照星级给出建议指数,供大家参考。
2025-07-16 08:30:38
782
原创 全中国Java生态都应该感谢阿里开源
在引入Dubbo的过程中,很多公司在落地过程中踩了相当多的坑,在那个技术文档并不完善的年代,所有问题都要自己动手处理,甚至最基本的日志分析都要熟练使用linux命令,各种复杂的日志分析命令是找到问题最关键的一步。这个转变持续了很多年,微服务最开始是在2000年初从国外引入国内的,但是在国内一直没有大范围的推广,直到一个框架的出现:Apache Dubbo。时至今日大家手头的技术栈中,越来越多的来自阿里云的贡献,原来的云栖社区现在阿里云开发者社区,也是大家获取大数据领域最新动态的最重要的来源没有之一。
2025-07-09 08:30:27
741
原创 大数据业内最前沿的一些动态解读分享|FFA2025新加坡站
Flink 2.0 创新性地中提出了一种全新的"解耦式状态管理架构(Disaggregated State Management)",将状态存储与计算任务分离,利用廉价的对象存储来共享数据,从而实现更灵活的资源调度、更高的可扩展性和更轻量稳定的容错能力。Flink社区的这种前瞻性考量也是非常值得称道,如果类似Flink、Spark这样的框架支持通过SQL和大模型进行交互,通过内置函数调用大模型服务,进而实现基于Flink/Spark SQL完成数据清洗、分析处理到AI推理的全链路实时计算。
2025-07-08 10:55:17
363
原创 Apache Spark目前发展到了什么程度?
作为协议层的核心改进,Spark Connect 实现了客户端与驱动程序的解耦,支持 Go、Python 等语言的轻量化客户端开发,用户可通过文本编辑器直接调试远程集群,极大降低了开发门槛;社区也在积极的拥抱新时代数据领域的挑战,你看到的无论是向量化执行、AI融合,还是生态层面的云原生支持、跨框架协作,都体现了社区对未来趋势的前瞻性布局。,没想到引起很多读者的共鸣,数据时代框架的发展之快远超过你我的预期,各位都是这个过程的亲历者。2025年5月23日,Spark4.0版本发布,但是网络上没有太大的反响。
2025-07-04 08:30:31
928
转载 最近,大数据的招聘市场已经疯掉了…
是指运行一段具有特定功能的代码块的行为,以增强其处理能力,实现更复杂的任务,使大模型能够集成外部工具和资源,提升交互性和实用性。AI大模型技术实战—— Transformer 架构的 核心原理、应用 Fine-tuning 技术,精准微调AI大模型,随着DeepSeek爆火,超200+企业纷纷接入AI应用,腾讯、百度、阿里等一线大厂更是加速AI市场渗透,老师们将大模型技术原理讲透的同时,还将丰富的商业化AI应用项目无偿分享,帮大家快速打通。,还能将分析结果封装成AI工具,或直接参与开发数据驱动的AI产品,
2025-07-03 10:01:46
735
原创 Apache Hive 还有未来吗?
这几年随着数据方向新的框架层出不穷,计算上有了Spark、Presto等更快的引擎,存储上有了Hudi、Paimon的出现,Hive原本在设计和使用上的一些弊病也不断被挑战,各种各样的后来者在解决原来Hive解决不了的问题,无论是在性能还是核心特性上。Hive应该是大多数人数据人接触的第一个框架,时至今日仍然在大家的工作中扮演着重要的角色,各大公司的核心数据底座中Hive仍然是重要的一环。在官方的Wiki中,Hive4.0版本的新的feature高达几十个。Hive社区也许也站在了历史上的某一个时间节点。
2025-07-01 08:30:16
355
原创 Paimon在各大公司生产实践和优化总结
因为Spark和Paimon集成度很高,通过Spark或Flink进行一些ETL操作,将数据写入Paimon中,基于Paimon进行z-order排序、聚簇,甚至构建文件级索引,然后通过Doris或StarRocks进行OLAP查询,这样就可以达到全链路OLAP的效果。此外,Paimon社区也提供了一套工具,可以帮助大家进行schema evolution,将MySQL甚至Kafka的数据同步到Paimon中,上游增加列,Paimon表也会跟着增加列。成本较高,Flink周边技术栈众多,管理和运维成本高;
2025-06-24 08:40:46
834
原创 2025年上半年总结,大数据方向求职及行业现状
不可否认,传统的离线类内容仍然占据工作内容的主流,但这就是面试和实际生产环境的割裂,因为面试是「选拔考试」,需要通过更加有难度的面试内容找到所需要的人,但更有另外一方面的原因,即是很多公司没有历史包袱,所以期望在建设初期摒弃掉传统的技术方案,采用更前沿和成本更低的方案。这部分内容不能说没有但是实实在在的变少,这部分内容在3-5年前占据了面试内容中的50%以上,原因是行业整体水平不高,并且新人多,行业需求旺盛,所以你只需要了解基本的框架原理,会基本的问题定位和解决(例如数据倾斜等),那么面试确实问题不大。
2025-06-20 08:40:21
1913
原创 除了调参/AQE/数据倾斜等,Spark还有什么方式能显著提升性能?
Gluten实现向量化计算的主要变更如下所示,在QueryExecution执行前优化过程中,通过注入规则对物理计划进行扩展处理,转为Gluten物理计划,使用向量化执行模式替换已有的JVM + CodeGen的执行模式。从Spark3.0开始,社区支持自适应查询执行(Adaptive Query Execution,AQE) ,在DAG Stage执行过程中,基于上一个Stage的真实执行统计信息,重新生成更优的执行计划,动态优化下一个Stage的执行逻辑。
2025-06-16 20:32:14
601
转载 数字化转型模板!企业级BI平台白皮书免费下载!
白皮书从规模型企业数字化转型特有的挑战入手,针对企业丰富的数字化触点、规模化能力建设、智能决策、组织升级需求进行分析,梳理了规模化企业对于“企业级BI”能力的要求,建设性地提出了企业级BI“五力模型”,为规模型企业提供新的BI建设思路与可落地的BI选择方法论。在内的各行业规模型企业的实践分析,分享企业级BI能力体系的构建成果,并前瞻性的展望了未来将驰骋市场的“四化”企业特征,为企业数字化运营及业务发展提供策略支持。本文内容来自《企业级BI平台白皮书》,扫二维码可下载完整白皮书。
2025-06-16 08:30:37
61
原创 Apache Fluss到底要解决什么问题?
此外,因为Fluss同时具备湖和流两层数据,数据周期较长且性能极佳,Fluss把原本基于State的Flink Join变成利用Fluss的CDC流读+索引点查,极大的减少了Flink多流Join的状态和性能以及资源消耗问题。而流存储作为湖存储的实时数据层,负责存储短周期、毫秒级延迟的数据,这两者的数据可以互相共享。保证性能不劣化的前提,极大的扩展原来Kafka所处生态位的能力,从单纯的数据存储扩展为「面向分析的存储」;且Kafka的网络成本极高,在很多公司,Kafka这样的组件收费甚至是按照qps来的。
2025-06-13 15:23:59
1152
原创 Paimon生产环境问题小总结
此外,在很多云平台产品上都提供了Bucket Shuffle功能,原理是在开启Bucket Shuffle后,会根据Join Key进行Hash分组处理,每个分组中只要缓存对应Bucket 数据,可以极大减少内存用量,减少了缓存淘汰的概率,就可以支持更大规模的维表。我们以Flink写Paimon举例,在小文件场景中,产生小文件主要有两方面导致,一是进行Checkpoint的时候会强制把当前的WriteBuffer的数据刷到磁盘上,二是WriteBuffer本身满了也会刷到磁盘上。
2025-06-11 08:30:58
901
原创 增量计算+实时湖仓是怎么回事?
关于湖框架的技术选型,这里小红书选择了Iceberg作为基座,Paimon作为维度表,当然因为不同公司的技术栈不同,用户可以灵活选择自己公司当前在用的框架。其次,利用StarRocks作为查询引擎,直接查询结果数据进行聚合,这也是我们在数据开发上经常用到的使用StarPocks、Doris等直接读取离线数据进行加速查询的场景。在模型设计层面,设计了<分钟,user_id> 粒度的数据,把明细日志转化成了5分钟+用户粒度的DWS层数据,同时在分钟级调度任务中关联用户维表,整体数据规模大幅度缩小。
2025-06-10 08:30:14
733
转载 为什么Data Warebase是AI时代首选Data API?
作者 | 王绍翾 @ProtonBase本文内容整理自 ProtonBase CEO 王绍翾在 AICon 的主题演讲《Data Warebase: Instant Ingest-Transform-Explore-Retrieve for AI Applications》。作者的职业经历贯穿了 AI 1.0、2.0 和 3.0 的时代,从搜索推荐,到视觉 / 语音 / NLP 智能,再到当前正全力投入的大模型 AI 浪潮,本文将结合其多年来对数据基础设施的实践与反思,深入探讨生成式 AI 时代对数据系统提
2025-06-09 08:31:12
119
原创 阿里面试:Flink Web UI核心监控项有哪些?如何监控Flink任务端到端全链路延迟?
Checkpoint 相关:numCompletedCheckpoints(成功次数)、latestCheckpointDuration(耗时)、pendingCheckpoints(排队数),优化 Checkpoint 配置。全链路延迟指数据从进入Flink任务(Source)到离开任务(Sink)的端到端耗时,Web UI 未直接提供该指标,实现端到端全链路延迟的方法有多种,我们举两个例子。事件时间延迟(Event Time Lag):若启用事件时间,显示当前事件时间与处理时间的差值,衡量端到端延迟。
2025-06-05 08:30:36
1287
原创 Trae VS. Lingma,字节和阿里的AI编辑器来了!
在AI技术迅猛发展的2025年,AI IDE出现了cursor、trae、windsurf、Lingma,插件有我们熟知的copilot、cline等等。作为AI原生的开发环境工具,通义灵码AI IDE深度适配了最新的千问3大模型,并全面集成通义灵码插件能力,具备编程智能体、行间建议预测、行间会话等功能。在多模态交互上,Trae支持自然语言命令,用户可以用通俗易懂的语言告诉Trae要做的事情,如"添加登录功能",Trae会自动完成相关代码的编写。官方网站:https://docs.trae.ai/
2025-06-04 08:31:04
984
原创 大厂高频Paimon面试题:如何优化Paimon表的读取性能?
Paimon 支持 Bloom Filter,可以快速判断某个文件中是否包含某个字段值,显著提高对应列值在 Data File 中的 SCAN 效率,适用于等值查询(如WHERE id = 123),不适合范围查询(如WHERE age > 18),对高频过滤的字段(如主键、外键)效果显著。主键表的文件结构大致如下所示,表或分区包含多个桶(bucket),每个桶是一个独立的 LSM 树结构,包含多个文件。对于常规的分桶表(例如,bucket = 5),主键的过滤条件将大大加速查询并减少大量文件的读取。
2025-06-03 11:39:21
1125
原创 我该用哪个框架入门AI应用开发领域?
其中Spring AI与 Spring 生态深度集成和企业级支持,适合已经使用Spring框架的企业级应用,如果你对 Spring 生态熟悉,那么可以拿 Spring AI 1.0当成你的第一个入门的开发框架。比如GPT-4o的图像能力,直接干翻了SD这种学习成本超高的应用,很多创业公司投入大量时间、人力资源去做的算法优化、工作流等随着大模型的一次发布就变得毫无价值。此外,在大模型高速发展的当下,学习任何东西都有可能在一夜之间变得没有价值,需要个体有强大的自我学习能力,跟上时代。这里不做过多赘述了。
2025-05-26 18:40:56
647
原创 Offer黄了?几个关键问题
对单个任务,基本的metrics例如lag、资源、消费情况,JVM的健康状况(GC、线程等),checkpoint的耗时、失败、大小等,此外还需要对单个Operator进行监控例如输入输出数据量、lookup的请求命中和延迟等,资源层面cpu和内存的使用率等;在大多数复杂的业务场景中,如果涉及到复杂的排序、关联等,我们可以从100-200Core,T级别的内存消耗,开始认为一个任务的资源消耗到了一个较大的程度,在这样的场景中我们开始会遇到复杂的反压、网络资源分配、关联/聚合热点等问题。
2025-05-21 08:31:20
978
原创 Apache Gravitino - AI和数据湖时代的新一代元数据管理平台!
在叶子节点上,可以是 Table、Fileset、Model、Topic,这些节点承载了进一步的元信息,如 Table 的列信息、分区信息,Fileset 的存储位置信息,Model 的版本信息和存储位置,Topic 的 Kafka 集群信息和 Schema 等等,用户还可以进一步扩展,以记录各种元信息。随着数据湖大规模应用、AI 数据大量增长、数据安全与数据治理被更加被重视,难以基于原有的架构或组件实现一套统一的元数据管理系统,进而解决数据孤岛、统一权限,多维度数据治理等问题。
2025-05-16 08:31:30
1590
原创 美团发offer了!大数据面经复盘来了
有不止一个大数据提高班的小伙伴面试了美团的数据开发岗位,面经我做了整了,今天分享的是其中的一些有水平的面试问题,如何能够给出超出期望的回答,拿到更好的面试评价。决策支持:能为企业领导提供准确、及时的数据支持,帮助做出正确的决策,同时能为日常运营和业务问题分析提供有效帮助,发现问题并提供解决方案或思路。元数据管理:表有中文别名和详细的字段描述,方便其他人员理解和使用,且具备完善的元数据管理系统,可追溯数据的来源、加工过程等。这种问题没有标准答案,但是是最佳的体现一个人的积累和思考的问题。
2025-05-15 08:30:52
1054
原创 DeepResearch+Github轻松阅读源码!
此外,像Cursor、Trae这样的具有 AI 功能的编辑器在辅助编程方面更是发展的无比迅速,一键改写,bug检测,性能优化等能力已经到了非常高的水平。这个功能使得ChatGPT可以分析Github上任意一个代码库,并且回答跟代码有关的问题,还会根据用户的指令生成详细报告。但是,我发现豆包也上线了类似功能,于是我尝试用豆包的AI编程能力分别尝试阅读了一下Flink的源代码,并且提示了一些问题。有相当一部分同学有阅读源码,了解实现原理的诉求,现在有了这样的神器会有很大的帮助。介绍一下Flink这个项目。
2025-05-14 08:30:58
392
原创 Redis8.0来袭,大数据点查询之王重磅发布!
由 Redis 的原始创建者 Salvatore Sanfilippo 开发,向量集借鉴了有序集(sorted set)的灵感,并扩展了有序集的概念,允许存储和查询高维向量嵌入,从而增强了 Redis 在涉及语义搜索和推荐系统等 AI 用例中的能力。Redis大家应该不陌生,Redis是一款高性能的内存数据库,具有丰富的数据结构和强大的功能,在整个软件开发领域,Redis在缓存、分布式锁、大数据处理等领域应用广泛。Redis 8.0 不仅带来了性能上的进一步提升,还带来一些实用的新特性与功能增强。
2025-05-08 08:30:22
1065
转载 月薪已炒到6W?强烈建议数据人冲一冲这个新兴领域
是指运行一段具有特定功能的代码块的行为,以增强其处理能力,实现更复杂的任务,使大模型能够集成外部工具和资源,提升交互性和实用性。AI大模型技术实战—— Transformer 架构的 核心原理、应用 Fine-tuning 技术,精准微调AI大模型,随着DeepSeek爆火,超200+企业纷纷接入AI应用,腾讯、百度、阿里等一线大厂更是加速AI市场渗透,老师们将大模型技术原理讲透的同时,还将丰富的商业化AI应用项目无偿分享,帮大家快速打通。,还能将分析结果封装成AI工具,或直接参与开发数据驱动的AI产品,
2025-05-07 10:01:34
256
原创 小红书取消大小周?大数据面试攻略先冲一波!
这样,用户可以随时查询表在某个历史时间点的状态,实现数据的版本回溯和时间旅行查询。iceberg的元数据管理,元数据管理是分层的包含:表元数据文件(Table Metadata File)、快照(Snapshot)、数据文件清单(Manifest File)、数据文件(Data File),关于每个文件存放了什么内容可以简单说说,回答不上来也没关系。当然,有些人不愿意取消大小周,原因就是感觉大小周虽然取消了,但是,工作量还是那些,可是呢,加班费没有了,挣的钱也就少了,以前周六上班,还能领双倍工资。
2025-04-29 09:32:52
1168
原创 沉淀一下,冲一波京东外卖面试!
异步合并过程中,数据的写入和合并操作是分离的,数据写入操作不会受到合并操作的影响,保证了数据写入的及时性和一致性。同时,Paimon 通过原子性的元数据更新机制,确保在合并操作完成后,表的元数据能够准确反映数据的最新状态,进一步保证了数据的一致性。你需要从「具体的业务场景入手」,意思就是说你的表达最好从真实的业务场景入手,而不是机械的记忆这些「八股文」,告诉面试官你在什么业务场景遇到了什么问题?充分竞争的市场对打工人是有利的,两家都在招兵买马,期望有更多的公司参与进来,能够给就业市场带来充分的活力。
2025-04-28 08:31:56
761
原创 数据boy有福了,Java体系AI框架SpringAI来袭!
Spring AI 是从著名的 Python 项目LangChain和LlamaIndex中汲取灵感,它不是这些项目的直接移植,它的成立信念是,下一波生成式人工智能应用程序将不仅适用于Python开发人员,而且将在许多编程语言中无处不在。尤其是LangChain出现后,因为低廉的学习成本和较好的效果,深受大家喜爱,因此Python在大模型、AI领域显示出了无与伦比的先发优势。Spring AI项目的推出,不仅标志着Spring生态的进一步扩展,也在Java语言体系中开启了一个全新的编程领域。
2025-04-25 08:30:41
665
转载 好消息,大数据开发面试方式已经开始变了!
这里值得一提的是类似k8s这样资源管理平台具备这样的能力,例如:在 Flink on k8s 的配置文件中,可能会有相关参数来配置黑名单机制的行为,如黑名单检测的周期、节点异常的阈值等。当然我们还是要实事求是,不能吹的过分不合理,因为数据规模变大带来的问题很多,连环问容易露馅儿。其中关于大模型相关的问题是属于开放性的,听起来似乎有点离谱,不过时代在发展,跟上时代发展的脚步,这也是理所当然。尾任务一般指的是没有下游/使用方的那些任务,在成熟的平台中是可以从任务的血缘元数据中批量识别到这些任务。
2025-04-24 08:30:34
108
转载 RAG 实战|用 StarRocks + DeepSeek 构建智能问答与企业知识库
为提升效果,应引入 RAG 机制,使检索结果与生成模型深度融合,从而优化回答质量并减少幻觉问题。RAG(Retrieval-Augmented Generation,检索增强生成)是一种结合外部知识检索与 AI 生成的技术,弥补了传统大模型知识静态、易编造信息的缺陷,使回答更加准确且基于实时信息。RAG(Retrieval-Augmented Generation,检索增强生成)是一种结合外部知识检索与 AI 生成的技术,弥补了传统大模型知识静态、易编造信息的缺陷,使回答更加准确且基于实时信息。
2025-04-22 08:30:58
116
转载 赢麻了!全体大数据人彻底狂欢吧!这个好消息来得太及时!
是衡量大语言模型“从量变到质变”的关键,是针对特定场景的AI解决方案。是指运行一段具有特定功能的代码块的行为,以增强其处理能力,实现更复杂的任务,使大模型能够集成外部工具和资源,提升交互性和实用性。AI大模型技术实战—— Transformer 架构的 核心原理、应用 Fine-tuning 技术,精准微调AI大模型,2节直播课,为你展示如何利用RAG、Fine-tuning的技术来改善大语言模型的使用!老师们将大模型技术原理讲透的同时,还将丰富的商业化AI应用项目无偿分享,帮大家快速打通。
2025-04-18 10:01:13
171
转载 Data + AI 下的新一代智能数仓平台
而文本去重过程涉及大量数据计算。在架构设计上,我们采用了存算分离的架构,底层存储依赖于阿里云飞天盘古存储,同时还支持将数据存储在数据湖中,并支持基于数据湖的计算与分析。其次,在数据处理即 Data for AI 方面,数仓平台如何更好地支撑大模型预训练的数据处理需求,高效地处理大规模数据,包括量结构化、半结构化及非结构化数据,构成了另一个重要挑战。为了提升开发体验,提高开发敏捷度,我们还推出了一套交互式的开发环境,开箱即用,用户可以像开发本地 Notebook 程序一样进行开发,同时还提供诊断分析功能。
2025-04-17 08:30:28
252
原创 Doris x Paimon湖仓一体建设技术要点
另外,Iceberg,Hudi 等都提供了开放式的元数据管理能力,不管元数据是存储在 Doris 本身,还是存储在 Hive Meta store,或者存储在其它统一元数据中心,都可以通过一些对外公开的 API 对这些数据进行管理。「数据分层建模,ODS层在 LakeHouse 中,DWD,DWS,ADS 层的数据加工和数据服务在可以在Doris中,充分利用其性能优势,此外还可以将其加工好的数据再通过Write-Back的机制写回到LakeHouse中,实现备份归档或者供其他的数据系统继续处理使用。
2025-04-15 08:30:41
1067
原创 Data Agent:Data + AI最典型的应用场景
另外,当有特定的数据提取需求时,它也能辅助生成相应的查询代码,展示结果,并支持可视化数据分析,进而高效地完成高质量的数据分析报告,助力企业更好地挖掘其数据资产潜力。在大模型领域,Agent是一种基于大模型技术,能自主感知环境信息、运用自身智能进行分析决策,并采取行动以达成特定目标的智能实体,具有自主性、智能性和交互性等特点,可应用于智能客服、机器人控制、数据分析决策等多个场景。:在客服场景中,Data Agent 可以理解用户的问题,从相关数据中获取答案,为用户提供准确、及时的服务,提高客服效率和满意度。
2025-04-09 08:30:41
2639
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人