王知无(import_bigdata)-优快云博客

原创 12天16场大数据模拟面试和复盘，以下是总结。

很多的同学在最初版的简历中「定位」较低，我经常听到的话是：「我在这个项目中只参与了xx部分的开发，其他的内容我不了解」，「我只做了xx的开发，yy内容是其他人做的，用的平台的能力」。这里我要跟大家说的是，我们在总结过去的工作履历时，首先站的位置一定是一个总揽全局的视角，是站在一个更高维度的层面去看待项目本身，不能站在一个基层的开发的角度去审视当前的项目。简历中的基本错误要坚决避免，因为有相当一部分的面试官看的非常仔细，会针对你的简历逐行阅读和提问，一个结构优雅，排版细致的简历给人的第一印象是非常好的。

2025-08-18 08:30:40 630

原创【2025年上半】Doris在各大公司生产实践方案和优化总结

这里我们必须要提一个能力，Doris在2.1版本中引入了 Job Scheduler 功能，实现了自主任务调度能力，调度的精准度可达到秒级，这个能力大家可以谨慎评估接入使用，更推荐的是结合第三方的调度框架使用。实践证明，以Doris引擎为驱动的准实时数仓模式，有效解决了数据生产和查询的难题，同时满足业务对数据时效性和灵活性的需求。在该架构中，利用Doris的实时写入能力(如KafkaToDoris实现秒级延迟写入)，配合可靠的 5、10、15、30分钟的调度保障能力，实现了业务数据的微批处理。

2025-08-05 08:30:19 884

原创早7晚11，大厂节奏崩不住了！附生存落地指南。

这是很多新人小伙伴，无论是应届生初入职场，或者从一家小而美的公司进入中大公司，尤其是几家工作节奏非常快的公司，遇到的第一个问题，环境改变很难适应。新人进入新的环境后，你需要做的是快速熟悉各种工具，包括线上沟通，打卡，公司IT服务等；并且十分建议大家主动找到你的上级沟通，这个沟通一般是在入职1周左右发起，把当前遇到的问题，未来工作计划聊清楚。迅速熟悉团队的文档，了解团队大概架构，核心的项目进展，不用追求细节，只求建立基本的认识。经过这四个阶段，恭喜你，你就可以完成在新的环境落地，生存下来了！

2025-08-01 17:01:32 395

原创又被拷打了！我的锅。

我们非常理解大家在这个过程中的煎熬，你要做的是抛出问题，然后会得到正确的答案，这个过程没有人是一帆风顺的。并且作为求职者，在当前的大环境下，要主动去了解目标岗位的要求，个人需要重点准备的内容，如果大家不确定，这个过程我们会帮大家做好判断。此外，一些中大公司的面试要特别注意，这些中大厂的面试时有冷冻期的，一般是6个月甚至更长，而且面试过程会记录到系统中，所以要谨慎对待。每一次面试都是一次对自身掌握知识的查漏补缺，对于缺乏判断力的部分同学来说，可以拿着录音或者面试笔记，我们会协助进行复盘。

2025-07-29 11:58:29 357

原创菠菜公司开了60K，坐牢还是坐班？

如果你对这类岗位感兴趣，可以多多搜集相关资料，例如upwork、AbetterWeb3等等网站，此外需要自己学习相关领域的专业知识。随着web3，区块链等的兴起，加上过去几年类似zoom、teams这样的线上办公平台的兴趣，很多公司都有了remote岗位。例如根据笔者的了解，web3的岗位有钱包相关、智能合约、数据开发等各种岗位，他们的共同点是薪水非常高，全球灵活办公等。最后，带个免责声明，本文纯属分享他人经历，不做职业建议，不推荐风险业务关联公司，其中风险请读者自行甄别。大家好，今天分享的内容有点劲爆。

2025-07-25 08:31:28 183

原创 AI融合存算分离｜Flink2025年核心更新汇总

这个能力主要是为了应对TB级别的状态存储与高吞吐、低延迟的访问要求，Flink2.0正式推出解耦式状态管理架构，通过异步执行框架ForSt和分层存储系统实现状态与计算分离，利用廉价的对象存储来共享数据，从而实现更灵活的资源调度、更高的可扩展性和更轻量稳定的容错能力。Flink社区的这种前瞻性考量也是非常值得称道，如果类似Flink、Spark这样的框架支持通过SQL和大模型进行交互，通过内置函数调用大模型服务，进而实现基于Flink/Spark SQL完成数据清洗、分析处理到AI推理的全链路实时计算。

2025-07-23 08:30:26 851

原创面试复盘，数据湖部分面试官关注什么？

其次在引擎侧，很多公司和云平台上的产品会针对性的做一些优化，例如：产生回撤信息最根本的一个原因是不断地向下游多次发送更新结果，所以为了减少更新的频率并降低并发，可以把更新结果累计一部分之后再发送出去；最后，给自己打个广告。我们拿Paimon举例，这个组件有自己的特性，例如支持流批读写，分钟级的数据新鲜度，主键和非主键表，此外Paimon还有维度表能力，列更细能力等。因此在大多数的场景中，我们都强烈建议在ODS做好数据的乱序处理，尤其是下游是主键表的情况，如果不做这种处理很容易导致最终的结果是错误的。

2025-07-21 18:02:33 479

原创 3年前的Flink任务优化，2025年还有效吗？

其他的优化例如，双流关联的主键优化，调整多流join顺序缓解state放大，dag子图复用等等大家可以酌情使用，对线上任务影响程度不是十分明显。此外最大的问题是，Mini-batch的开和关会带来Flink任务的DAG发生改变，导致状态不兼容，需要特别注意⚠️！经过优化器识别后，Flink可以只使用一个共享状态实例，而不是三个状态实例，可减少状态的大小和对状态的访问。三年后的今天，我们站在生产实践的角度，总结一下哪些优化手段是比较推荐的，按照星级给出建议指数，供大家参考。

2025-07-16 08:30:38 782

原创全中国Java生态都应该感谢阿里开源

在引入Dubbo的过程中，很多公司在落地过程中踩了相当多的坑，在那个技术文档并不完善的年代，所有问题都要自己动手处理，甚至最基本的日志分析都要熟练使用linux命令，各种复杂的日志分析命令是找到问题最关键的一步。这个转变持续了很多年，微服务最开始是在2000年初从国外引入国内的，但是在国内一直没有大范围的推广，直到一个框架的出现：Apache Dubbo。时至今日大家手头的技术栈中，越来越多的来自阿里云的贡献，原来的云栖社区现在阿里云开发者社区，也是大家获取大数据领域最新动态的最重要的来源没有之一。

2025-07-09 08:30:27 741

原创大数据业内最前沿的一些动态解读分享｜FFA2025新加坡站

Flink 2.0 创新性地中提出了一种全新的"解耦式状态管理架构（Disaggregated State Management）"，将状态存储与计算任务分离，利用廉价的对象存储来共享数据，从而实现更灵活的资源调度、更高的可扩展性和更轻量稳定的容错能力。Flink社区的这种前瞻性考量也是非常值得称道，如果类似Flink、Spark这样的框架支持通过SQL和大模型进行交互，通过内置函数调用大模型服务，进而实现基于Flink/Spark SQL完成数据清洗、分析处理到AI推理的全链路实时计算。

2025-07-08 10:55:17 363

原创 Apache Spark目前发展到了什么程度？

作为协议层的核心改进，Spark Connect 实现了客户端与驱动程序的解耦，支持 Go、Python 等语言的轻量化客户端开发，用户可通过文本编辑器直接调试远程集群，极大降低了开发门槛；社区也在积极的拥抱新时代数据领域的挑战，你看到的无论是向量化执行、AI融合，还是生态层面的云原生支持、跨框架协作，都体现了社区对未来趋势的前瞻性布局。，没想到引起很多读者的共鸣，数据时代框架的发展之快远超过你我的预期，各位都是这个过程的亲历者。2025年5月23日，Spark4.0版本发布，但是网络上没有太大的反响。

2025-07-04 08:30:31 928

转载最近，大数据的招聘市场已经疯掉了…

是指运行一段具有特定功能的代码块的行为，以增强其处理能力，实现更复杂的任务，使大模型能够集成外部工具和资源，提升交互性和实用性。AI大模型技术实战—— Transformer 架构的核心原理、应用 Fine-tuning 技术，精准微调AI大模型，随着DeepSeek爆火，超200+企业纷纷接入AI应用，腾讯、百度、阿里等一线大厂更是加速AI市场渗透，老师们将大模型技术原理讲透的同时，还将丰富的商业化AI应用项目无偿分享，帮大家快速打通。，还能将分析结果封装成AI工具，或直接参与开发数据驱动的AI产品，

2025-07-03 10:01:46 735

原创 Apache Hive 还有未来吗？

这几年随着数据方向新的框架层出不穷，计算上有了Spark、Presto等更快的引擎，存储上有了Hudi、Paimon的出现，Hive原本在设计和使用上的一些弊病也不断被挑战，各种各样的后来者在解决原来Hive解决不了的问题，无论是在性能还是核心特性上。Hive应该是大多数人数据人接触的第一个框架，时至今日仍然在大家的工作中扮演着重要的角色，各大公司的核心数据底座中Hive仍然是重要的一环。在官方的Wiki中，Hive4.0版本的新的feature高达几十个。Hive社区也许也站在了历史上的某一个时间节点。

2025-07-01 08:30:16 355

原创 Paimon在各大公司生产实践和优化总结

因为Spark和Paimon集成度很高，通过Spark或Flink进行一些ETL操作，将数据写入Paimon中，基于Paimon进行z-order排序、聚簇，甚至构建文件级索引，然后通过Doris或StarRocks进行OLAP查询，这样就可以达到全链路OLAP的效果。此外，Paimon社区也提供了一套工具，可以帮助大家进行schema evolution，将MySQL甚至Kafka的数据同步到Paimon中，上游增加列，Paimon表也会跟着增加列。成本较高，Flink周边技术栈众多，管理和运维成本高；

2025-06-24 08:40:46 834

原创 2025年上半年总结，大数据方向求职及行业现状

不可否认，传统的离线类内容仍然占据工作内容的主流，但这就是面试和实际生产环境的割裂，因为面试是「选拔考试」，需要通过更加有难度的面试内容找到所需要的人，但更有另外一方面的原因，即是很多公司没有历史包袱，所以期望在建设初期摒弃掉传统的技术方案，采用更前沿和成本更低的方案。这部分内容不能说没有但是实实在在的变少，这部分内容在3-5年前占据了面试内容中的50%以上，原因是行业整体水平不高，并且新人多，行业需求旺盛，所以你只需要了解基本的框架原理，会基本的问题定位和解决(例如数据倾斜等)，那么面试确实问题不大。

2025-06-20 08:40:21 1913

原创除了调参/AQE/数据倾斜等，Spark还有什么方式能显著提升性能？

Gluten实现向量化计算的主要变更如下所示，在QueryExecution执行前优化过程中，通过注入规则对物理计划进行扩展处理，转为Gluten物理计划，使用向量化执行模式替换已有的JVM + CodeGen的执行模式。从Spark3.0开始，社区支持自适应查询执行(Adaptive Query Execution,AQE) ，在DAG Stage执行过程中，基于上一个Stage的真实执行统计信息，重新生成更优的执行计划，动态优化下一个Stage的执行逻辑。

2025-06-16 20:32:14 601

转载数字化转型模板！企业级BI平台白皮书免费下载！

白皮书从规模型企业数字化转型特有的挑战入手，针对企业丰富的数字化触点、规模化能力建设、智能决策、组织升级需求进行分析，梳理了规模化企业对于“企业级BI”能力的要求，建设性地提出了企业级BI“五力模型”，为规模型企业提供新的BI建设思路与可落地的BI选择方法论。在内的各行业规模型企业的实践分析，分享企业级BI能力体系的构建成果，并前瞻性的展望了未来将驰骋市场的“四化”企业特征，为企业数字化运营及业务发展提供策略支持。本文内容来自《企业级BI平台白皮书》，扫二维码可下载完整白皮书。

2025-06-16 08:30:37 61

原创 Apache Fluss到底要解决什么问题？

此外，因为Fluss同时具备湖和流两层数据，数据周期较长且性能极佳，Fluss把原本基于State的Flink Join变成利用Fluss的CDC流读+索引点查，极大的减少了Flink多流Join的状态和性能以及资源消耗问题。而流存储作为湖存储的实时数据层，负责存储短周期、毫秒级延迟的数据，这两者的数据可以互相共享。保证性能不劣化的前提，极大的扩展原来Kafka所处生态位的能力，从单纯的数据存储扩展为「面向分析的存储」；且Kafka的网络成本极高，在很多公司，Kafka这样的组件收费甚至是按照qps来的。

2025-06-13 15:23:59 1152

原创 Paimon生产环境问题小总结

此外，在很多云平台产品上都提供了Bucket Shuffle功能，原理是在开启Bucket Shuffle后，会根据Join Key进行Hash分组处理，每个分组中只要缓存对应Bucket 数据，可以极大减少内存用量，减少了缓存淘汰的概率，就可以支持更大规模的维表。我们以Flink写Paimon举例，在小文件场景中，产生小文件主要有两方面导致，一是进行Checkpoint的时候会强制把当前的WriteBuffer的数据刷到磁盘上，二是WriteBuffer本身满了也会刷到磁盘上。

2025-06-11 08:30:58 901

原创增量计算+实时湖仓是怎么回事？

关于湖框架的技术选型，这里小红书选择了Iceberg作为基座，Paimon作为维度表，当然因为不同公司的技术栈不同，用户可以灵活选择自己公司当前在用的框架。其次，利用StarRocks作为查询引擎，直接查询结果数据进行聚合，这也是我们在数据开发上经常用到的使用StarPocks、Doris等直接读取离线数据进行加速查询的场景。在模型设计层面，设计了<分钟，user_id> 粒度的数据，把明细日志转化成了5分钟+用户粒度的DWS层数据，同时在分钟级调度任务中关联用户维表，整体数据规模大幅度缩小。

2025-06-10 08:30:14 733

转载为什么Data Warebase是AI时代首选Data API？

作者 | 王绍翾 @ProtonBase本文内容整理自 ProtonBase CEO 王绍翾在 AICon 的主题演讲《Data Warebase: Instant Ingest-Transform-Explore-Retrieve for AI Applications》。作者的职业经历贯穿了 AI 1.0、2.0 和 3.0 的时代，从搜索推荐，到视觉 / 语音 / NLP 智能，再到当前正全力投入的大模型 AI 浪潮，本文将结合其多年来对数据基础设施的实践与反思，深入探讨生成式 AI 时代对数据系统提

2025-06-09 08:31:12 119

原创阿里面试：Flink Web UI核心监控项有哪些？如何监控Flink任务端到端全链路延迟？

Checkpoint 相关：numCompletedCheckpoints（成功次数）、latestCheckpointDuration（耗时）、pendingCheckpoints（排队数），优化 Checkpoint 配置。全链路延迟指数据从进入Flink任务（Source）到离开任务（Sink）的端到端耗时，Web UI 未直接提供该指标，实现端到端全链路延迟的方法有多种，我们举两个例子。事件时间延迟（Event Time Lag）：若启用事件时间，显示当前事件时间与处理时间的差值，衡量端到端延迟。

2025-06-05 08:30:36 1287

原创 Trae VS. Lingma，字节和阿里的AI编辑器来了！

在AI技术迅猛发展的2025年，AI IDE出现了cursor、trae、windsurf、Lingma，插件有我们熟知的copilot、cline等等。作为AI原生的开发环境工具，通义灵码AI IDE深度适配了最新的千问3大模型，并全面集成通义灵码插件能力，具备编程智能体、行间建议预测、行间会话等功能。在多模态交互上，Trae支持自然语言命令，用户可以用通俗易懂的语言告诉Trae要做的事情，如"添加登录功能"，Trae会自动完成相关代码的编写。官方网站：https://docs.trae.ai/

2025-06-04 08:31:04 984

原创大厂高频Paimon面试题：如何优化Paimon表的读取性能？

Paimon 支持 Bloom Filter，可以快速判断某个文件中是否包含某个字段值，显著提高对应列值在 Data File 中的 SCAN 效率，适用于等值查询（如WHERE id = 123），不适合范围查询（如WHERE age > 18），对高频过滤的字段（如主键、外键）效果显著。主键表的文件结构大致如下所示，表或分区包含多个桶（bucket），每个桶是一个独立的 LSM 树结构，包含多个文件。对于常规的分桶表（例如，bucket ＝ 5），主键的过滤条件将大大加速查询并减少大量文件的读取。

2025-06-03 11:39:21 1125

原创我该用哪个框架入门AI应用开发领域？

其中Spring AI与 Spring 生态深度集成和企业级支持，适合已经使用Spring框架的企业级应用，如果你对 Spring 生态熟悉，那么可以拿 Spring AI 1.0当成你的第一个入门的开发框架。比如GPT-4o的图像能力，直接干翻了SD这种学习成本超高的应用，很多创业公司投入大量时间、人力资源去做的算法优化、工作流等随着大模型的一次发布就变得毫无价值。此外，在大模型高速发展的当下，学习任何东西都有可能在一夜之间变得没有价值，需要个体有强大的自我学习能力，跟上时代。这里不做过多赘述了。

2025-05-26 18:40:56 647

原创 Offer黄了？几个关键问题

对单个任务，基本的metrics例如lag、资源、消费情况，JVM的健康状况(GC、线程等)，checkpoint的耗时、失败、大小等，此外还需要对单个Operator进行监控例如输入输出数据量、lookup的请求命中和延迟等，资源层面cpu和内存的使用率等；在大多数复杂的业务场景中，如果涉及到复杂的排序、关联等，我们可以从100-200Core，T级别的内存消耗，开始认为一个任务的资源消耗到了一个较大的程度，在这样的场景中我们开始会遇到复杂的反压、网络资源分配、关联/聚合热点等问题。

2025-05-21 08:31:20 978

原创 Apache Gravitino - AI和数据湖时代的新一代元数据管理平台！

在叶子节点上，可以是 Table、Fileset、Model、Topic，这些节点承载了进一步的元信息，如 Table 的列信息、分区信息，Fileset 的存储位置信息，Model 的版本信息和存储位置，Topic 的 Kafka 集群信息和 Schema 等等，用户还可以进一步扩展，以记录各种元信息。随着数据湖大规模应用、AI 数据大量增长、数据安全与数据治理被更加被重视，难以基于原有的架构或组件实现一套统一的元数据管理系统，进而解决数据孤岛、统一权限，多维度数据治理等问题。

2025-05-16 08:31:30 1590

原创美团发offer了！大数据面经复盘来了

有不止一个大数据提高班的小伙伴面试了美团的数据开发岗位，面经我做了整了，今天分享的是其中的一些有水平的面试问题，如何能够给出超出期望的回答，拿到更好的面试评价。决策支持：能为企业领导提供准确、及时的数据支持，帮助做出正确的决策，同时能为日常运营和业务问题分析提供有效帮助，发现问题并提供解决方案或思路。元数据管理：表有中文别名和详细的字段描述，方便其他人员理解和使用，且具备完善的元数据管理系统，可追溯数据的来源、加工过程等。这种问题没有标准答案，但是是最佳的体现一个人的积累和思考的问题。

2025-05-15 08:30:52 1054

原创 DeepResearch+Github轻松阅读源码！

此外，像Cursor、Trae这样的具有 AI 功能的编辑器在辅助编程方面更是发展的无比迅速，一键改写，bug检测，性能优化等能力已经到了非常高的水平。这个功能使得ChatGPT可以分析Github上任意一个代码库，并且回答跟代码有关的问题，还会根据用户的指令生成详细报告。但是，我发现豆包也上线了类似功能，于是我尝试用豆包的AI编程能力分别尝试阅读了一下Flink的源代码，并且提示了一些问题。有相当一部分同学有阅读源码，了解实现原理的诉求，现在有了这样的神器会有很大的帮助。介绍一下Flink这个项目。

2025-05-14 08:30:58 392

原创 Redis8.0来袭，大数据点查询之王重磅发布！

由 Redis 的原始创建者 Salvatore Sanfilippo 开发，向量集借鉴了有序集（sorted set）的灵感，并扩展了有序集的概念，允许存储和查询高维向量嵌入，从而增强了 Redis 在涉及语义搜索和推荐系统等 AI 用例中的能力。Redis大家应该不陌生，Redis是一款高性能的内存数据库，具有丰富的数据结构和强大的功能，在整个软件开发领域，Redis在缓存、分布式锁、大数据处理等领域应用广泛。Redis 8.0 不仅带来了性能上的进一步提升，还带来一些实用的新特性与功能增强。

2025-05-08 08:30:22 1065

转载月薪已炒到6W？强烈建议数据人冲一冲这个新兴领域

是指运行一段具有特定功能的代码块的行为，以增强其处理能力，实现更复杂的任务，使大模型能够集成外部工具和资源，提升交互性和实用性。AI大模型技术实战—— Transformer 架构的核心原理、应用 Fine-tuning 技术，精准微调AI大模型，随着DeepSeek爆火，超200+企业纷纷接入AI应用，腾讯、百度、阿里等一线大厂更是加速AI市场渗透，老师们将大模型技术原理讲透的同时，还将丰富的商业化AI应用项目无偿分享，帮大家快速打通。，还能将分析结果封装成AI工具，或直接参与开发数据驱动的AI产品，

2025-05-07 10:01:34 256

原创小红书取消大小周？大数据面试攻略先冲一波！

这样，用户可以随时查询表在某个历史时间点的状态，实现数据的版本回溯和时间旅行查询。iceberg的元数据管理，元数据管理是分层的包含：表元数据文件（Table Metadata File）、快照（Snapshot）、数据文件清单（Manifest File）、数据文件（Data File），关于每个文件存放了什么内容可以简单说说，回答不上来也没关系。当然，有些人不愿意取消大小周，原因就是感觉大小周虽然取消了，但是，工作量还是那些，可是呢，加班费没有了，挣的钱也就少了，以前周六上班，还能领双倍工资。

2025-04-29 09:32:52 1168

原创沉淀一下，冲一波京东外卖面试！

异步合并过程中，数据的写入和合并操作是分离的，数据写入操作不会受到合并操作的影响，保证了数据写入的及时性和一致性。同时，Paimon 通过原子性的元数据更新机制，确保在合并操作完成后，表的元数据能够准确反映数据的最新状态，进一步保证了数据的一致性。你需要从「具体的业务场景入手」，意思就是说你的表达最好从真实的业务场景入手，而不是机械的记忆这些「八股文」，告诉面试官你在什么业务场景遇到了什么问题？充分竞争的市场对打工人是有利的，两家都在招兵买马，期望有更多的公司参与进来，能够给就业市场带来充分的活力。

2025-04-28 08:31:56 761

原创数据boy有福了，Java体系AI框架SpringAI来袭！

Spring AI 是从著名的 Python 项目LangChain和LlamaIndex中汲取灵感，它不是这些项目的直接移植，它的成立信念是，下一波生成式人工智能应用程序将不仅适用于Python开发人员，而且将在许多编程语言中无处不在。尤其是LangChain出现后，因为低廉的学习成本和较好的效果，深受大家喜爱，因此Python在大模型、AI领域显示出了无与伦比的先发优势。Spring AI项目的推出，不仅标志着Spring生态的进一步扩展，也在Java语言体系中开启了一个全新的编程领域。

2025-04-25 08:30:41 665

转载好消息，大数据开发面试方式已经开始变了！

这里值得一提的是类似k8s这样资源管理平台具备这样的能力，例如：在 Flink on k8s 的配置文件中，可能会有相关参数来配置黑名单机制的行为，如黑名单检测的周期、节点异常的阈值等。当然我们还是要实事求是，不能吹的过分不合理，因为数据规模变大带来的问题很多，连环问容易露馅儿。其中关于大模型相关的问题是属于开放性的，听起来似乎有点离谱，不过时代在发展，跟上时代发展的脚步，这也是理所当然。尾任务一般指的是没有下游/使用方的那些任务，在成熟的平台中是可以从任务的血缘元数据中批量识别到这些任务。

2025-04-24 08:30:34 108

转载 RAG 实战｜用 StarRocks + DeepSeek 构建智能问答与企业知识库

为提升效果，应引入 RAG 机制，使检索结果与生成模型深度融合，从而优化回答质量并减少幻觉问题。RAG（Retrieval-Augmented Generation，检索增强生成）是一种结合外部知识检索与 AI 生成的技术，弥补了传统大模型知识静态、易编造信息的缺陷，使回答更加准确且基于实时信息。RAG（Retrieval-Augmented Generation，检索增强生成）是一种结合外部知识检索与 AI 生成的技术，弥补了传统大模型知识静态、易编造信息的缺陷，使回答更加准确且基于实时信息。

2025-04-22 08:30:58 116

转载赢麻了！全体大数据人彻底狂欢吧！这个好消息来得太及时！

是衡量大语言模型“从量变到质变”的关键，是针对特定场景的AI解决方案。是指运行一段具有特定功能的代码块的行为，以增强其处理能力，实现更复杂的任务，使大模型能够集成外部工具和资源，提升交互性和实用性。AI大模型技术实战—— Transformer 架构的核心原理、应用 Fine-tuning 技术，精准微调AI大模型，2节直播课，为你展示如何利用RAG、Fine-tuning的技术来改善大语言模型的使用！老师们将大模型技术原理讲透的同时，还将丰富的商业化AI应用项目无偿分享，帮大家快速打通。

2025-04-18 10:01:13 171

转载 Data + AI 下的新一代智能数仓平台

而文本去重过程涉及大量数据计算。在架构设计上，我们采用了存算分离的架构，底层存储依赖于阿里云飞天盘古存储，同时还支持将数据存储在数据湖中，并支持基于数据湖的计算与分析。其次，在数据处理即 Data for AI 方面，数仓平台如何更好地支撑大模型预训练的数据处理需求，高效地处理大规模数据，包括量结构化、半结构化及非结构化数据，构成了另一个重要挑战。为了提升开发体验，提高开发敏捷度，我们还推出了一套交互式的开发环境，开箱即用，用户可以像开发本地 Notebook 程序一样进行开发，同时还提供诊断分析功能。

2025-04-17 08:30:28 252

原创 Doris x Paimon湖仓一体建设技术要点

另外，Iceberg，Hudi 等都提供了开放式的元数据管理能力，不管元数据是存储在 Doris 本身，还是存储在 Hive Meta store，或者存储在其它统一元数据中心，都可以通过一些对外公开的 API 对这些数据进行管理。「数据分层建模，ODS层在 LakeHouse 中，DWD，DWS，ADS 层的数据加工和数据服务在可以在Doris中，充分利用其性能优势，此外还可以将其加工好的数据再通过Write-Back的机制写回到LakeHouse中，实现备份归档或者供其他的数据系统继续处理使用。

2025-04-15 08:30:41 1067

原创 Data Agent：Data + AI最典型的应用场景

另外，当有特定的数据提取需求时，它也能辅助生成相应的查询代码，展示结果，并支持可视化数据分析，进而高效地完成高质量的数据分析报告，助力企业更好地挖掘其数据资产潜力。在大模型领域，Agent是一种基于大模型技术，能自主感知环境信息、运用自身智能进行分析决策，并采取行动以达成特定目标的智能实体，具有自主性、智能性和交互性等特点，可应用于智能客服、机器人控制、数据分析决策等多个场景。：在客服场景中，Data Agent 可以理解用户的问题，从相关数据中获取答案，为用户提供准确、及时的服务，提高客服效率和满意度。

2025-04-09 08:30:41 2639

大数据面试大总结300页.zip

空空如也