hy1568786-优快云博客

原创图说hadoop原理

hadoop=hdfs+mapreducemap:五步走reduce：三步走shuffle：这是文本人学习hadoop提出的问题加网络学习图1.分块是在哪里完成的【或者：有多少个map】？2.分布式系统都强调一致性，datanode的是什么一致性？3.WAL有什么作用？4.Hbase支持事务吗？请点击有道云笔记链接：文档：hadoop学习系统.not...

2020-05-06 10:03:54 228 1

第一步：【原来这里是有个AI生成应用的(在月初刚用，我就感觉这一块完全可以抽出来，原型图简直了)】最后在项目目录下看到[其实后端都没有生成，也就是他们上了半成本，后端导入cursor，继续肝]这个没啥分析的，原型图设计的一级棒[应该和原始的AI生成应用是一个系统，不用在分析了]1.多个设计原型图，基本没有一款如此，再次借用华为的几个字：遥遥领先。2.细节：在初版界面不满意可以多次抽卡，很妙啊。第二步：一句话描述需求，然后经过4步。等等等等等等等等等等等等等等等。AI生成应用，上截图吧。

2025-12-18 23:55:37 342

原创 coze编程-工作流-起起起---废(一句话生成工作流)

个人体验：有一点点失望吧，理论上coze，一句话生成workflow，在coze商店的积累，做成这样，还是令人很意外的。根据宣传语和创意概念，创作一个15-30秒短视频的详细脚本，包含分镜、画面描述、配音文本、时长和转场效果。- full_voiceover_text: 完整的配音文本（所有分镜配音文本合并）2. 设计完整的叙事结构（开场、发展、高潮、结尾）。5. 提取完整的配音文本（所有分镜的配音文本合并）。- 转场效果（如：切、淡入、淡出、叠化）- 镜头运动（如：推、拉、摇、移）

2025-12-18 23:43:14 275 1

原创 COZE编程-智能体-起飞起飞起飞(一句话生成智能体大升级)

其他主推的workflow生成：refly.ai。问：搜索过去2个月的招聘行业政策并分析影响。1.效果偏差，但是基本能否完成。后续续持续做功能拆解。

2025-12-18 22:15:55 124

原创基于cusor的AI生成原型图

如果你先试用gpt进行plan，在试用gemini进行编程，爽的起飞如果你先试用gpt进行plan，在试用gemini进行编程，爽的起飞如果你先试用gpt进行plan，在试用gemini进行编程，爽的起飞替代coze ai应用不是梦。

2025-12-17 18:50:14 946 1

原创搞定企业级 Workflow 的两个“骚操作”

如果你正面对复杂的企业级工作流（Workflow）设计感到无从下手，不要硬抗。

2025-12-08 20:12:51 313

原创看好大模型技术，不看好“AI 手机”现状

AI 手机目前处于“功能机装 GPRS”的阶段。真正的爆发点需要等待OS 底层重构（开放全系统接口）与端侧模型智商质变的双重临界点到来。

2025-12-07 14:39:31 440

原创 Flink 延时数据处理

合理组合使用 Watermark + allowedLateness + sideOutputLateData，几乎可以覆盖所有延迟数据的处理需求。后可以看到正常计算结果，side output 只包含真正“太晚”的数据。，该元素会被直接丢弃或输出到 side output（取决于是否配置了。中会判断当前元素是否已经晚于。被标记为 true。

2025-11-30 15:52:33 336

原创没有空白实验，多个实验的累计效应如何计算

摘要：本文提出一种基于历史协变量和倾向评分匹配（PSM）的"伪Holdout"方法，用于解决无长期全局Holdout、多实验并行场景下的增量评估问题。该方法通过选取实验上线前的"干净历史时期"数据作为协变量，为高暴露用户匹配相似的低暴露用户作为伪对照组，从而估算多实验整体真实增量（Pseudo-ATE）和单个实验贡献。具体分为6个步骤：确定历史窗口、定义暴露组、提取协变量、执行PSM匹配、计算整体增量，以及通过IPW回归或剂量反应模型实现单实验归因。该方法已在头部互联

2025-11-27 20:10:08 564

原创大模型验证AB实验因果关系的完整流程

（适用于流量治理、定价调整、推荐干预、风控策略等一切“干预→用户行为变化→业务指标”场景）

2025-11-27 19:10:09 316

原创 cursor的subAgent时刻

cursor的subAgent时刻

2025-11-21 15:01:50 188

原创 openmanus的自我剖析

openmanus的自我剖析

2025-03-14 10:25:20 163

原创 distinct为什么比group by慢

2.spark sql中的group by 在优化时=reducebykey。1.spark core中,网络传输的数据少。distinct 大概率是groupby。

2023-10-24 16:13:41 283

原创 AB实验--科学增长

AB实验

2023-10-14 12:25:03 356

原创 linux安装lightbgm异常

【代码】linux安装lightbgm异常。

2023-10-13 16:35:20 607

原创 spark api submit

参考：：Spark2.3（四十）：如何使用java通过yarn api调度spark app，并根据appId监控任务，关闭任务，获取任务日志 - cctext - 博客园

2022-04-06 17:13:44 115

转载 flinksql time

FlinkSql指定时间语义 - 从不吃鱼的猫 - 博客园

2022-03-07 10:20:11 221

转载画像用户扩展

参考：Lookalike 技术调研 - 简书

2022-02-10 10:43:19 175

转载 spark的透视表：pivot

参考：spark中的透视函数pivot - 尤灯塔 - 博客园

2022-01-27 11:03:42 450

原创 scala伴生对象的反射

private val currentClass = Class.forName("com.compute.biz.clue.streaming.SyncClueStreamingFunctions$")private val currentObj = currentClass.getField("MODULE$").get(null)// 所有方法的map,(methodName->method)private val methodMap = currentClass.getDeclared.

2022-01-25 09:29:16 381

转载 spark ML

参考：https://www.cnblogs.com/nxf-rabbit75/category/1572700.html?page=1

2021-09-09 14:42:42 135

转载 flink的waterMark

combinebykey && aggregatebykey

2021-07-01 09:29:05 148

原创一个流和百亿级的表的join

以spark为例：分治 val kafkaManager = new KafkaManager(kafkaParams) val kafkaDirectStream = kafkaManager.createDirectStream[String, String, StringDecoder, StringDecoder](ssc,kafkaParams,topicSet) val res = kafkaDirectStream .filter(l => l._2.c...

2021-06-09 22:22:34 402 2

原创 task调优

task输入倾斜调优：https://www.jianshu.com/p/06a4b2f50940

2021-06-02 14:28:20 157

转载 spark数据倾斜

https://blog.youkuaiyun.com/kaede1209/article/details/81145560

2021-05-31 09:47:34 130

转载 hive对复杂数据结构的处理map，array，struct

参考blog：https://zhuanlan.zhihu.com/p/150361645

2021-04-30 16:01:23 221 1

原创 posexplode

hive的高级函数的使用参考blog：https://www.cnblogs.com/-courage/p/14122106.html

2021-04-30 09:27:01 257

转载 spark的算子中定义一些需要的函数

参考：https://www.jianshu.com/p/780ae7c95bde

2021-03-04 14:20:30 167 1

原创目标检索偶感

目标检索：定义：目标生成的特征是唯一的，在各个层次中都会携带这一特征。卷积：就是把这一特征，以新的方式展示出来，方便计算，存储，传输，增强等最后：经过反卷积，解出特征，在与目标进行比对，选择。...

2021-02-13 21:38:48 258

原创 spark的获取文件名称

spark的获取文件名称：rdd中获取http://cn.voidcc.com/question/p-yhavvflg-bhx.htmldf中获取还有一个是通过使用functions.input_file_name

2021-02-08 16:32:16 588

原创特殊的hadoop

特殊的hadoop 1.没有reducer的demo： job.setNumReduceTasks(0);https://blog.youkuaiyun.com/boonya/article/details/54630808?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522161242952716780264021789%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%25...

2021-02-04 17:30:26 141

原创 sparksql连接kafka

参考：https://www.cnblogs.com/yin-fei/p/10748505.html

2021-01-11 22:52:28 990

转载 DAG调度器

参考：https://houbb.github.io/2020/01/23/data-struct-learn-03-dag-schedule#%E8%B0%83%E5%BA%A6%E5%99%A8https://blog.youkuaiyun.com/dbqb007/article/details/89042984https://blog.youkuaiyun.com/silentwolfyh/article/details/53996845个人理解：调度器的目的：让各个节点按照顺序执行...

2020-11-03 10:43:41 298

原创 ES的操作，以及ES搭建二级索引

参考2篇blog注：优快云上关于这这个二级索引，例子单一，使用起来不是太合适ES6.5的操作：https://www.cnblogs.com/LUA123/p/9967638.htmlES简历二级索引：https://github.com/hyydouble/es-hbase/blob/master/src/main/java/com/daqsoft/AppMain2.java...

2020-10-19 15:28:49 982

原创 centos7安装单机版k8s

参考：https://lihaoquan.me/2017/2/25/create-kubernetes-single-node-mode.html

2020-10-14 19:52:24 640

转载 spark的累加器

在学习这个点的时候，问自己几个问题：1.累加器有什么用2.典型的应用场景3.怎么用4.是否可以自定义https://www.cnblogs.com/itboys/p/11056758.html

2020-09-28 16:48:20 172

转载 Hive指定查询输出分隔符

参考：https://blog.youkuaiyun.com/yeweiouyang/article/details/52560130

2020-09-26 18:05:48 465

转载一篇文章看懂大数据的5大关键技术

大数据技术，就是从各种类型的数据中快速获得有价值信息的技术。大数据领域已经涌现出了大量新的技术，它们成为大数据采集、存储、处理和呈现的有力武器。大数据处理关键技术一般包括：大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用（大数据检索、大数据可视化、大数据应用、大数据安全等）。1.大数据采集技术数据采集是指通过RFID射频数据、传感器数据、社交网络交互数据及移动互联网数据等方式获得的各种类型的结构化、半结构化（或称之为弱结构化）及非结构化的海量数据，是大数据知识服务模型的

2020-09-11 11:34:43 14502

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

numpy中文手册

FCM算法，matlab实现

K-means.zip

Python源码解析

Beginning C# 7 Programming with Visual Studio 2017(conv)

空空如也