自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(476)
  • 收藏
  • 关注

原创 数据安全不是效率的杀手

不用给开发开权限, 不用给分析师“半透明字段”, 不用担心二次扩散, 更不用担心导出 Excel。注意,可信数据空间是正在研发的核武器,解决的是跨组织的信任问题,在企业内部大多不需要。你让一个上线前一天的操作,负责补齐半年的安全债,结果当然是崩溃式卡死。那么安全就变成“系统默认能力”,不再变成“每天你要跪着走的流程”。真正拖垮效率的,从来不是“安全严格”,而是“安全被做成了流程”。下面是五个“破局策略”, 不是教条,不是讨好,不是抱怨,是升级。“真正的泄露,不是因为你给了权限,而是因为你不给权限。

2025-12-01 07:31:46 597

原创 漫画版:数据团队的年终总结

第5幅:战术一·“擦屁股”的升华(包装“苦活脏活”)第11幅:战术四·“扯皮终结者”(包装“数据治理”)第7幅:战术二·“特洛伊木马”(包装“技术升级”)第9幅:战术三·“功劳的悖论”(包装“价值归因”)第13幅:战术五·“贩卖恐惧”(争取明年资源)第一幕:工程师的“耿直”与老板的“懵懂”第12幅:战术四·“数据最高法院”第17幅:总结的总结(核心观点图)第6幅:战术一·“守护神”登场。第8幅:战术二·“让业务起飞”第10幅:战术三·“强行上船”第14幅:战术五·“定时炸弹”第16幅:“不说人话”的胜利。

2025-11-26 07:31:19 416

原创 靠“人海战术”堆不出高质量数据集!

因为大模型需要的不是“标准答案”,而是“世界的复杂性”。而在“数据工厂”模式下,标注员按件计费,他们的目标是“快”,不是“懂”。最终,这个数据集喂出来的模型,学会了“词义一致”,却没学会“场景理解”。模型在这堆“净土数据”(或称“无菌数据”)上训练得无比优雅,可一上线,就被真实世界的脏乱差打回原形。模型的能力,往往取决于它见过了多少“困难样本”(Edge Cases),而不是它重复了多少“简单样本”。面对模棱两可的内容,团队领导决定:所有拿不准的、有争议的内容,一律标为“不安全”。

2025-11-24 07:31:14 701

原创 数据团队的年终总结,不是工作汇报,而是“成果包装战”

为销售团队解决了晨会报表加载 3 分钟的问题,通过底层架构重构,将加载时间降至 5 秒,销售团队每天多出 20 分钟讨论策略。数据团队的年终总结,本质上是一次“成果包装战”—— 在有限的资源、弱势的位置下,把今年的努力最大化变成组织能理解的价值。你需要用一个“特洛伊木马”,一个业务方关心的具体场景,把你的技术工作“偷运”进去。做好这篇总结, 你就能让团队的努力不被埋没, 让明年的资源更好争, 让领导知道:。你不是“做数的人”, 你是“让公司少出事、业务跑更快、决策更靠谱”的那个人。这不是忽悠, 是翻译。

2025-11-17 07:31:08 300

原创 元数据管理,很难成功

会议室里,厂商在投屏上演示各种元数据管理平台,口若悬河地讲“自动血缘解析”“智能语义识别”“AI助力数据资产化”。不是因为它不重要——恰恰相反,它是整个数据治理的“任督二脉”,是数据资产化的“地基”。在管理层眼里,元数据是“数据地图”——能帮人找到数据、理解数据、信任数据。只有当这些责任被固化在运行逻辑里,“统一口径”“数据透明”才不再是口号。钱砸下去,工具上了,厂商走了,系统成了孤岛,没人维护,也没人用。“人肉索引”的效率,往往高于任何“元数据搜索引擎”。

2025-11-10 07:31:03 347

原创 可信数据空间通用架构图全解

这个过程叫"联邦学习"(Federated Learning),整个计算还可以在"可信执行环境"(TEE,一种加密芯片)里进行,就像给保险箱再套一层金库。就像你请两个大厨(医院)用他们的独家食材(数据)做菜(训练),但你不能进厨房、不能看食材,大厨只告诉你"需要加3克盐、5克糖"(模型参数)。两家医院不会真的上传患者数据,而是在数据空间里发布一个"数据产品目录",就像在淘宝开店但只放商品介绍,货还在自己仓库里。药企在数据空间的"搜索引擎"里输入关键词"癌症+基因数据",找到了两家医院的产品。

2025-11-03 07:30:18 791

原创 为什么“可信数据空间”,还不可信?

更尴尬的是,由于缺少事前的授权审批机制和事中的智能合约约束,区块链只是变成了一本“如实记录犯罪过程的日记本”——它能证明违规发生了,但阻止不了违规的发生。就像TCP/IP协议定义了互联网的连通性,可信空间需要的是定义数据互信规则的“信任协议”,而非另一个“超级平台”。很多地方把“数据交易所”直接改名或升级为“可信数据空间”,项目PPT里依然充满“挂牌交易”、“成交额”、“撮合服务”等指标。“建设一个统一的大平台,把身份认证、隐私计算、区块链、审计、结算模块都堆上去,再买几十台服务器,这就是可信数据空间。

2025-10-27 07:30:52 727

原创 逃离了数据,我还能做什么

这时候你可以基于你对数据的理解,主动提出建议。简历上写着"精通SQL、Python、Tableau",但你心里清楚,这些技能在其他岗位的JD(简历描述)里,只是那句"熟悉数据分析优先"的加分项,从来不是核心竞争力。可能是又一次被当成"取数工具人"的时候,可能是看到同龄的产品经理在复盘会上侃侃而谈的时候,也可能是在招聘网站上看到"35岁以下优先"这行字的时候。如果你依然享受解决复杂技术难题的成就感,只是厌倦了当"人肉查询机",那么你的方向不应该是"逃离数据",而是"向上突破",进入技术壁垒更高的领域。

2025-10-20 07:31:52 1081

原创 业务部门的“不作为”杀死了数据治理?

当然,这对很多企业的数据治理团队是个挑战,因为组织割裂和文化惯性可能导致没有人会去业务蹲点,治理者到底是管理者还是服务者角色也是摇摆不定,更别提集中化和分布式组织的协同难题了。我们比较成功的一次数据治理,源于大数据变现时期跨部门核心数据的拉通,因为数据缺失多了,客户就投诉,产品部门直接把电话打爆。最成功的数据治理项目,都是从一个具体的业务痛点开始的,有明确的收益预期,有清晰的责任人,有可量化的考核指标。但有些数据团队,非要单独立项,单独申请预算,搞得好像数据治理是一个跟业务无关的事情。

2025-10-13 07:30:43 618

原创 大模型,正在淘汰那些本该被淘汰的数据分析师

真正的分析能力,是你能不能透过数据看到业务的真相,能不能用数据讲出一个让人信服(且让自己安全)的故事,以及——最重要的——你能不能在复杂的博弈环境中,推动事情往正确的方向走,并且让自己活下来。然后在复盘会上,当产品团队提出优化方案时,老赵再站出来,用数据去支持这个方案:“我们分析了,如果推出‘经典模式’,根据用户画像推算,大概可以挽回30%的流失用户。他会先私下里找到产品团队里信任的接口人,把数据和发现“分享”给他们,语气是探讨,不是质问:“我看到一些数据现象,和你们的预期一致吗?因为“销量”到底是什么?

2025-10-09 07:31:19 793

原创 外包团队撤场后,留下的“数据屎山”谁来铲?

由于输入和输出都是预先定义好的,他们轻松地引入了C公司,只替换了中间的“标签计算”模块,而上下游的系统完全不受影响。更重要的是,内部团队应聚焦于处理外包团队无法解决的那20%的“异常情况”和“疑难杂症”。这样做的好处是,任何一个模块的供应商不给力,我随时可以无痛替换,从而彻底打破“供应商锁定”。甲方通常不会为外包的“试错”买单,导致外包团队倾向于保守,不求有功但求无过,最终交付的只是一个“看起来还行”的平庸之作。我们实际上是在将企业的“数据大脑”外包,亲手埋下了“能力空心化”的种子。

2025-09-28 07:31:26 706

原创 报表取数,正在杀死整个数据团队

你可以秘密审计当前的工作负载,识别出那些价值最低、耗时最多的垃圾需求,采取“主动降级”策略,把承诺完成时间适当延长一些,这带有一定的风险,但为了打破死循环,你必须做出取舍。你可以采取更务实且温和的方式,比如可以利用需求管理系统,定期向各业务部门负责人发送一份“信息账单”:“上个月,贵部门共提出了50个数据需求,消耗了数据团队80个工时,折合人力成本约XX元。你可以在团队内部使用简化的“影响-投入”四象限矩阵进行分类,识别出“快赢项目”(优先做)、“战略项目”(专门排期)和“时间黑洞”(重点管理)。

2025-09-22 07:30:48 564

原创 漫画:数据仓库死了!

这家Spark起家的公司市值超过了1000亿美金,其在某种程度上代表了数仓的未来。我们要理解它,学习它,超越它!公众号推送规则变了,如果您想及时收到推送,麻烦右下角点个。GenAI:收购 MosaicML (2023)性能怪兽:Photon 引擎 (2021)Spark 革命与公司诞生 (2013)Delta Lake 诞生 (2019)缘起:伯克利Lab (2009)传统数仓死了,新的继承者当立。湖仓一体出世 (2020)进化完成:数据智能平台。竞争优势:中立与多云。以数据为中心的 AI。

2025-09-16 07:30:26 123

原创 很遗憾,大模型想直接搞定数据质量,根本不可能!

你是一个数据运维专家。请识别出其中所有定义模糊(例如,‘活跃’的定义)、存在歧义或缺少关键信息(例如统计周期、是否包含测试用户等)的地方,并以提问的方式,列出一个问题清单,方便我向业务方进行二次确认。在清洗数据时,模型可能会过度解读或错误关联,将正确的数据“清洗”成错误的数据(例如,错误地标准化一个罕见但正确的公司名称,或者在提取信息时张冠李戴)。这种“帮倒忙”的行为对数据质量是致命的。请按照['字段名', 'PII类型(如电话、邮箱、地址)', '敏感等级(高/中/低)', '判断依据']的格式列出。

2025-09-12 07:31:41 928 1

原创 AI智能体在2025年注定失败?

大家总觉得Agent最值钱的是那个聪明的“大脑”,但现实是,AI模型本身的工作量,可能只占全部开发的30%。答案是:那些还停留在PPT上,吹嘘“全自动、通用、一步到位”的神话,同时固守着脆弱的设计、忽视工程现实的Agent项目,注定失败。这意味着,“失败滚雪球”是一个不断变化的移动靶,而非静态的宿命。我们的目标,就是通过更先进的工程思想,让系统韧性的增长速度,跑赢任务复杂度的增长速度。让智能体尽量做一个专注的工具人,你给他一个明确的指令,他给你一个高质量的结果,然后立刻下班,绝不跟你多聊一句。

2025-09-09 07:30:52 378

原创 数据中台即将重生:智能数据中枢!

现在,他直接问Agent,Agent会自动进行多维度下钻分析,并回答:"主要原因是'促销活动B'于上周日结束,导致流量下滑30%。: 基于此框架,Agent在内部形成了一个清晰的分析计划:"OK,我要依次探查是'访客数'、'转化率'还是'客单价'出了问题,然后再对问题指标进行下钻。这是统一的数据基座,通过Iceberg/Hudi/Delta等开放表格式,实现对结构化和非结构化数据的统一管理,批流一体,存算分离。没有它,Agent面对海量数据就会产生"幻觉",所有的智能都将是不可靠的空中楼阁。

2025-09-03 07:31:02 1043

原创 嘿,那个做数据的,你今天又背锅了吗?

谷歌更新了生图模型,不愧是NO.1,我重绘了这个数据治理漫画,大家鉴赏!公众号推送规则变了,如果您想及时收到推送,麻烦右下角点个。第四幕:简单的"小事"第七幕:业务理解的鸿沟。第八幕:预算的"艺术"第九幕:文化的"革命"第十幕:成功的"模式"尾声:致敬"无用"的人。

2025-09-01 07:31:18 150

原创 很遗憾,ChatSQL,不会成功!

当深入剖析那些被ChatSQL“拒绝服务”的真实需求时,我们看到的不是简单的技术障碍,而是一道道人类智慧与组织“惯性”共同构建的壁垒。我们当前的目标,或许不是一个冰冷的、100%自动化的数据工厂,而是一个由AI赋能、但仍由人类智慧主导的、更高效、更精准的特定场景的数据分析作坊。我们可以改变自己,但改变不了体系,体系的改变需要时间,而这不是我们一只团队,一个企业,甚至一个行业所能改变的。我们一直以为我们需要构建一个先进的AI应用,但现在真正需要面对的,是企业长期以来积累的、根深蒂固的“

2025-08-25 07:45:42 486

原创 你在第几阶段?企业数据治理体系的五级进化论

公司在做数智化转型,提到数据治理的时候,强调了降本增效,我当时也挺困惑,现在豁然开朗,做啥事,都讲究个性价比,数据治理前期投资是让你启动,但一旦到了一定规模,还是要回归市场本质,一切向利润看齐。:在数据仓库、大数据平台的那个时代,我们其实也一直以"服务者"的姿态在做数据支撑,但那个时候提供的服务是被动的,局部的,零碎的,现在的服务则是主动的,全局的,融合的。成立了"市政府"(数据治理委员会),开始统一规划,修筑主干道(拉通数据),建立供水系统(数据仓库/平台),并制定交通法规(数据标准)。

2025-08-20 08:04:11 913

原创 别再堆砌数安工具了!它们救不了你的数据(附实践架构蓝图)

它能精准地告诉你,哪个存有L4级敏感数据的云数据库正在“公网裸奔”,让安全从“盲人摸象”变为“精准制导”。身份是新的安全边界。跨平台的DLP(数据防泄漏),集成CASB(云访问安全代理)/SASE(安全访问服务边缘),防止数据从云、网络、终端泄露。通过预设的“剧本”,自动执行事件调查和响应(例如,发现高危访问,自动禁用账号并通知管理员),极大提升响应速度(MTTR)。解释:数据安全的“全景地图”和“体检中心”。不仅要“防得住”(零信任),还要“用得好”(隐私工程),更要“建得快”(DataSecOps)。

2025-08-18 08:25:42 1071

原创 很遗憾,数据中台的数据资产,无法入表!

数据中台将其核心的"信贷风控特征数据"定价为10元/次调用,而将普通的"客户基础信息数据"定价为0.1元/次。"你们声称平台每年能节约上亿的成本,但这份收益里,有多少是因为更换了更便宜的供应商(采购部功劳),多少是因为优化了生产线工艺(生产部功劳),又有多少是单纯因为市场需求变化?这些数据产品,由于其权责清晰、成本收入明确,反而更容易以"存货"或"合同履约成本"的名义入表。年末,信贷数据产品部门在计算其对外销售的"风控评分API"产品的"存货"成本时,将这笔高昂的"内部数据服务费"计入了成本。

2025-08-13 08:26:03 915

原创 20年实战,我只用这一张「用数据说话」框架图

有没有可能,大家只是因为被强制要求才上来“打卡”,而真正需要的数据,因为缺乏业务元数据和质量标签,依然找不到,也看不懂?例如,在一张复杂的数据架构图下面,直接写上:“结论:三大核心系统间存在47个重复的数据接口,每年造成约80万的额外维护成本。发现因为供应商信息不统一,同一物料,我们向其实为同一家供应商的不同分公司,支付了不同的价格。一个错误的源头数据,是如何像病毒一样,污染了下游的十几个系统,最终导致了一次严重的生产事故。我们定义的KPI,衡量的是无意义的“行为”,还是有价值的“结果”?

2025-08-11 07:30:31 697

原创 ChatGPT 5发布,它怎么理解数据治理?

写成规则、落实流程、固化到系统,并被持续审计——这就叫数据治理。组织与责任(Owner/Steward)|规则与标准|流程与监控|工具与台账(元数据、质量、权限、血缘)。它让数据在既定成本与风险约束下,可用、可控、可信,并且结果可复现、过程可审计。不是一次性清洗、不是上个工具、也不是把锅丢给IT;数据治理=把数据从“副产品”变成“可经营资产”的制度化协作。成本: 取数交付周期、重复建设占比、治理单笔成本。效用: 数据可发现时间、可用覆盖率、复用率;风险: 质量缺陷率、口径冲突率、违规访问率;

2025-08-08 12:03:24 119

原创 数据不一致是组织病,不是技术Bug

我的文章显然解决不了上面的问题,我只是在假设,管理者,如果真的想解决数据不一致问题,下面的内容,可以给你提供一些弹药和指引,但要不要做,愿不愿做,敢不敢做,那是你的问题。只有当企业真正理解并接受这一点,才能从永无休止的"救火"中解脱出来,构建起真正的数据治理体系,也只有在这个体系下,管理者才不会随波逐流,站在全局的角度下做出理性的选择。大家都在做利益权衡,直到某天突然爆了个雷,被迫彻底根治,因为这个时候不做的代价,不仅仅是那点数据不一致造成的业务损失,还包括不作为的其他成本。

2025-08-04 07:31:50 810

原创 ChatGPT竟然抄了我的思路,刚推出了Study Mode,激动啊!

其底层技术由一套定制的系统提示词驱动,这些指令基于对学习科学的长期研究,旨在促进用户更加深度地学习,包括鼓励主动参与、管理认知负荷、主动发展元认知和自我反思、培养好奇心,以及提供可行的支持性反馈。而是应该一步步引导用户思考,每次只问一个问题,帮助用户自己理解和解决问题,并在继续下一步之前,给用户回应每一步的机会。3. 一起练习:让用户总结内容,适时提问,引导用户“复述给你听”,或者通过角色扮演(例如,用另一种语言练习对话)来练习。比如,不是直接给答案,而是通过苏格拉底式的提问引导用户思考。

2025-08-02 11:29:35 325

原创 别再死磕大模型了!我们把ChatSQL准确率从5%拉到60%的深度复盘

从优化需求提交界面,到增加需求管理员的"标准化"环节,再到引入ChatSQL Agent实现自动处理,并在最后增设人工抽检与确认环节,形成了一个"人机协同"的全新闭环。我们只能退而求其次,要求需求管理员在审核环节对不规范的需求进行"翻译"和"补全",但这无疑增加了他们的工作负担,也改变了他们固有的工作模式。当时,即便是最前沿的开源大模型,其SQL生成能力也远未成熟。在模型能力达到新的瓶颈前,我们通过业务分类的方式,将需求和对应的数据资产进行"分区",以降低单次查询的复杂度。

2025-07-28 07:30:31 583

原创 漫画:人工智障

公众号推送规则变了,如果您想及时收到推送,麻烦右下角点个。14、AI 对 AI。

2025-07-25 07:31:13 226

原创 少谈数据治理,多做点数据管理和数据执行,这才是王道!

比如针对领域数据开放不畅问题,领域管理部门完全可以不管,短期也没啥大影响,但今天慢8小时,明天慢16小时,积累多了,这个公司的数据管理水平就比对手落后一截,老板还在那纳闷呢,为啥别人总比我们快半拍,诸不知是领域数据管理部门不履职造成的。你看华为配置有50人呢,因此,后续还要增加...."现实世界里,没有那么多的地方需要高大上的企业数据治理,因为公司的组织架构设置大多时候就是权责匹配的,只有在流程的边界地带存在权力的真空,因此,老是要搞跨部门数据治理的企业,肯定是不正常的。

2025-07-21 07:31:23 519

原创 做了100件事,老板只回一句:和业务有啥关系?

我一般会这么回答:"因为X域和Y域数据标准不一,导致XX数据不一致,导致业务部门做分析的时候,经常无法从两域匹配到完整的数据,因此,我们通过数据标准化和实体对齐,现在数据一致性达到了99%....."因此,你不能只是回答"进度70%",还要说"主要完成了XX,YY工作,还余留2个风险AA/BB,需要老板资源支持,如果顺利,预计项目将在XX之前完成。你详细的介绍了企业数据资产的梳理方法论,讲述了你们是怎么实现了部门墙的打破,怎么实现了主数据的统一,并且列出了引以为傲的数据治理的系列成果,包括:。

2025-07-07 07:30:51 940

原创 我,年薪50万数据建模师,每天都在应验这23个诅咒

诅咒十三「AutoML真神」诅咒二十一「KPI魔咒」诅咒五「数据地狱·上」诅咒六「数据地狱·中」诅咒七「数据地狱·下」诅咒十「先射箭再画靶」诅咒十七「重复造轮子」诅咒十九「相关即因果」诅咒二十「规则>AI」诅咒二十二「模型公墓」诅咒三「面试造火箭」诅咒八「孤岛共和国」诅咒十一「全能战士」诅咒十五「不可解释」诅咒十八「技术选型」诅咒二十三「在路上」

2025-07-02 07:30:28 217

原创 老板又让我写方案,我脑子一片空白

下面,我来介绍一个PPT汇报的通用模版,它适用于任何领域,它是汇报的"道",掌握了这个道,你至少知道了应该从哪里开始思考,不要有所缺漏,你可以基于"道",沉淀你所属领域的特定方法。有些方案的策略则要极尽你所能,非常复杂,比如要你制定一个企业级的数据治理方案,你得靠分层匹配法或者你所知道的那些方法论,即从组织,制度,机制,流程,系统等方面入手。有些方案的策略是很容易给的,上级下达了一个明确的要求,你对症下药就可以了,即从目标反推,比如让你解决性能不足的问题,你作为架构师马上会想到架构上的各种优化策略。

2025-06-30 07:30:46 646

原创 用了AI两年,我的大脑开始生锈,到底错在哪里?

当我们意识到这种结构性差距的存在,一个关键的概念浮出水面——我们需要重新思考在AI时代,什么是真正的"认知公平",如何才能确保每个人都有机会成为AI的主人而非奴隶?当"快餐式使用"成为主流,那些有能力进行"深度使用"的人反而获得了更大的相对优势。他复盘了自己如何从"通宵啃论文"的专家,变成一个依赖AI生成代码和报告的"提问机器",并担忧自己正陷入"认知外包"的陷阱,深度思考的能力正在钝化。⏰ 当AI系统的设计目标是"最大化用户使用时长"而非"最大化用户成长",你的努力是否在与系统对抗?

2025-06-23 07:31:33 1152 1

原创 AI大模型技术架构图全解

最后,要承认,不同领域、不同专业背景的人在画AI架构图时,会侧重某个特定方面,比如搞工程的,会特别重视模型增强层和AI编排层,我这张架构图,在他们眼里,肯定是不够专业。现在AI大模型火热,每个人都想对大模型技术有所了解,至少想了解个大概,这个时候,读懂架构图就很关键。原始模型像素颜,增强后才能上妆见人,这一层是让AI从"能用"到"好用"的魔法层。因此,我在下面还特意附上了其它的大模型架构,供大家参考,也请分享给有需要的人。不同场景需要不同模型,这一层是模型超市,是企业的"AI资产库"。

2025-06-18 07:30:34 2636 1

原创 我画了25个数据治理者的自画像,荒诞啊!

数据治理者是跨学科者,身体由技术员(键盘)、法律人(法锤)、业务人(公文包)、分析师(放大镜)四部分拼接而成。数据世界像一头巨大的数据“豹子”,难以掌控,数据治理者从一个小洞里试图理解全局数据地图。数据治理者穿白大褂,面对各种"数据病患"(缺失值、重复值、异常值)进行紧急手术。数据治理者身后是奔腾而混乱的数据“羊群”,他们挥舞数据“法杖”试图驱赶入栏。数据治理者像武林盟主,召集各门派(业务、分析、IT)合修元数据秘籍。数据治理者在建设一个“数据民主广场”,每人都有数据权益证。

2025-06-16 07:31:09 522

原创 别再逼数据治理创造价值了,它做不到!

现在很多企业IT部门牵头搞数据汇聚和开放,业务部门要是没真正参与进来,没有责权利的明确,没有分层分级,没有详细的解释口径,没有透明的处理过程,没有有效的权限控制,你让大家怎么信这个数据的可用性、权威性、安全性?多年前的一个下午,你站在会议室里,面对着老板质疑的眼睛,你的那份关于数据治理如何构建组织、建立流程、汇聚数据,建立目录,然后开放的PPT,讲到一半就感觉讲不下去了。:数据整合后,你能看到更完整的画面,不同来源的数据能互相印证,矛盾少了,一致性高了,你对数据整体描述能力的信任就上来了。

2025-06-09 07:31:10 934

原创 从数仓到GPT时代,我用30张图总结了20年数据架构演进史

从1990年代的Oracle单体数据库,21世纪初的数据仓库,到2024年爆火的向量数据库;今天,当你掌握了这30种架构模式,你就拥有了30种解决问题的思路。典型代表:Teradata、Oracle Exadata、IBM Netezza。典型代表:Apache Doris、StarRocks、Druid。这30张图,不仅是技术的演进史,更是一代又一代工程师智慧的结晶。典型代表:Oracle、SQL Server、MySQL单实例。我曾经问过一位在大厂工作了15年的架构师:'什么是好的架构?

2025-06-03 07:31:39 877

原创 我,年薪50万的数据治理专家,成了全公司最“没用“的人?

公众号推送规则变了,如果您想及时收到推送,麻烦右下角点个。第10幅:年度汇报·第三年。第9幅:年度汇报·第一年。第18幅:董事会报告出错。第20幅:自己的"成功"第3幅:第一次部门会议。第四幕:简单的"小事"第12幅:系统切换之夜。第七幕:业务理解的鸿沟。第13幅:财务数据治理。第八幕:预算的"艺术"第15幅:预算会议对比。第九幕:文化的"革命"第十幕:成功的"模式"第19幅:别人家的成功。第22幅:AI时代来临。尾声:致敬"无用"的人。第24幅:地下室的灯光。第5幅:数据泄露危机。第7幅:统一客户定义。

2025-05-28 07:30:26 192

原创 我,年薪50万的数据治理专家,成了全公司最“没用“的人?

公众号推送规则变了,如果您想及时收到推送,麻烦右下角点个。第10幅:年度汇报·第三年。第9幅:年度汇报·第一年。第18幅:董事会报告出错。第20幅:自己的"成功"第3幅:第一次部门会议。第四幕:简单的"小事"第12幅:系统切换之夜。第七幕:业务理解的鸿沟。第13幅:财务数据治理。第八幕:预算的"艺术"第15幅:预算会议对比。第九幕:文化的"革命"第十幕:成功的"模式"第19幅:别人家的成功。第22幅:AI时代来临。尾声:致敬"无用"的人。第24幅:地下室的灯光。第5幅:数据泄露危机。第7幅:统一客户定义。

2025-05-28 07:30:26 340

原创 我,年薪50万的数据治理专家,成了全公司最“没用“的人?

公众号推送规则变了,如果您想及时收到推送,麻烦右下角点个。第10幅:年度汇报·第三年。第9幅:年度汇报·第一年。第18幅:董事会报告出错。第20幅:自己的"成功"第3幅:第一次部门会议。第四幕:简单的"小事"第12幅:系统切换之夜。第七幕:业务理解的鸿沟。第13幅:财务数据治理。第八幕:预算的"艺术"第15幅:预算会议对比。第九幕:文化的"革命"第十幕:成功的"模式"第19幅:别人家的成功。第22幅:AI时代来临。尾声:致敬"无用"的人。第24幅:地下室的灯光。第5幅:数据泄露危机。第7幅:统一客户定义。

2025-05-28 07:30:26 290

原创 我,年薪50万的数据治理专家,成了全公司最“没用“的人?

公众号推送规则变了,如果您想及时收到推送,麻烦右下角点个。第10幅:年度汇报·第三年。第9幅:年度汇报·第一年。第18幅:董事会报告出错。第20幅:自己的"成功"第3幅:第一次部门会议。第四幕:简单的"小事"第12幅:系统切换之夜。第七幕:业务理解的鸿沟。第13幅:财务数据治理。第八幕:预算的"艺术"第15幅:预算会议对比。第九幕:文化的"革命"第十幕:成功的"模式"第19幅:别人家的成功。第22幅:AI时代来临。尾声:致敬"无用"的人。第24幅:地下室的灯光。第5幅:数据泄露危机。第7幅:统一客户定义。

2025-05-28 07:30:26 273

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除