- 博客(132)
- 资源 (5)
- 收藏
- 关注
原创 图说hadoop原理
hadoop=hdfs+mapreducemap:五步走reduce:三步走shuffle:这是文本人学习hadoop提出的问题加网络学习图1.分块是在哪里完成的【或者:有多少个map】?2.分布式系统都强调一致性,datanode的是什么一致性?3.WAL有什么作用?4.Hbase支持事务吗?请点击有道云笔记链接:文档:hadoop学习系统.not...
2020-05-06 10:03:54
228
1
原创 coze编程-网页应用|移动应用-一句话生成应用
第一步:【原来这里是有个AI生成应用的(在月初刚用,我就感觉这一块完全可以抽出来,原型图简直了)】最后在项目目录下看到[其实后端都没有生成,也就是他们上了半成本,后端导入cursor,继续肝]这个没啥分析的,原型图设计的一级棒[应该和原始的AI生成应用是一个系统,不用在分析了]1.多个设计原型图,基本没有一款如此,再次借用华为的几个字:遥遥领先。2.细节:在初版界面不满意可以多次抽卡,很妙啊。第二步:一句话描述需求,然后经过4步。等等等等等等等等等等等等等等等。AI生成应用,上截图吧。
2025-12-18 23:55:37
342
原创 coze编程-工作流-起起起---废(一句话生成工作流)
个人体验:有一点点失望吧,理论上coze,一句话生成workflow,在coze商店的积累,做成这样,还是令人很意外的。根据宣传语和创意概念,创作一个15-30秒短视频的详细脚本,包含分镜、画面描述、配音文本、时长和转场效果。- full_voiceover_text: 完整的配音文本(所有分镜配音文本合并)2. 设计完整的叙事结构(开场、发展、高潮、结尾)。5. 提取完整的配音文本(所有分镜的配音文本合并)。- 转场效果(如:切、淡入、淡出、叠化)- 镜头运动(如:推、拉、摇、移)
2025-12-18 23:43:14
275
1
原创 COZE编程-智能体-起飞起飞起飞(一句话生成智能体大升级)
其他主推的workflow生成:refly.ai。问:搜索过去2个月的招聘行业政策并分析影响。1.效果偏差,但是基本能否完成。后续续持续做功能拆解。
2025-12-18 22:15:55
124
原创 基于cusor的AI生成原型图
如果你先试用gpt进行plan,在试用gemini进行编程,爽的起飞如果你先试用gpt进行plan,在试用gemini进行编程,爽的起飞如果你先试用gpt进行plan,在试用gemini进行编程,爽的起飞替代coze ai应用不是梦。
2025-12-17 18:50:14
946
1
原创 看好大模型技术,不看好“AI 手机”现状
AI 手机目前处于“功能机装 GPRS”的阶段。真正的爆发点需要等待OS 底层重构(开放全系统接口)与端侧模型智商质变的双重临界点到来。
2025-12-07 14:39:31
440
原创 Flink 延时数据处理
合理组合使用 Watermark + allowedLateness + sideOutputLateData,几乎可以覆盖所有延迟数据的处理需求。后可以看到正常计算结果,side output 只包含真正“太晚”的数据。,该元素会被直接丢弃或输出到 side output(取决于是否配置了。中会判断当前元素是否已经晚于。被标记为 true。
2025-11-30 15:52:33
336
原创 没有空白实验,多个实验的累计效应如何计算
摘要:本文提出一种基于历史协变量和倾向评分匹配(PSM)的"伪Holdout"方法,用于解决无长期全局Holdout、多实验并行场景下的增量评估问题。该方法通过选取实验上线前的"干净历史时期"数据作为协变量,为高暴露用户匹配相似的低暴露用户作为伪对照组,从而估算多实验整体真实增量(Pseudo-ATE)和单个实验贡献。具体分为6个步骤:确定历史窗口、定义暴露组、提取协变量、执行PSM匹配、计算整体增量,以及通过IPW回归或剂量反应模型实现单实验归因。该方法已在头部互联
2025-11-27 20:10:08
564
原创 distinct为什么比group by慢
2.spark sql中的group by 在优化时=reducebykey。1.spark core中,网络传输的数据少。distinct 大概率是groupby。
2023-10-24 16:13:41
283
原创 spark api submit
参考::Spark2.3(四十):如何使用java通过yarn api调度spark app,并根据appId监控任务,关闭任务,获取任务日志 - cctext - 博客园
2022-04-06 17:13:44
115
原创 scala伴生对象的反射
private val currentClass = Class.forName("com.compute.biz.clue.streaming.SyncClueStreamingFunctions$")private val currentObj = currentClass.getField("MODULE$").get(null)// 所有方法的map,(methodName->method)private val methodMap = currentClass.getDeclared.
2022-01-25 09:29:16
381
转载 spark ML
参考:https://www.cnblogs.com/nxf-rabbit75/category/1572700.html?page=1
2021-09-09 14:42:42
135
原创 一个流和百亿级的表的join
以spark为例:分治 val kafkaManager = new KafkaManager(kafkaParams) val kafkaDirectStream = kafkaManager.createDirectStream[String, String, StringDecoder, StringDecoder](ssc,kafkaParams,topicSet) val res = kafkaDirectStream .filter(l => l._2.c...
2021-06-09 22:22:34
402
2
转载 hive对复杂数据结构的处理map,array,struct
参考blog:https://zhuanlan.zhihu.com/p/150361645
2021-04-30 16:01:23
221
1
原创 posexplode
hive的高级函数的使用 参考blog:https://www.cnblogs.com/-courage/p/14122106.html
2021-04-30 09:27:01
257
原创 目标检索偶感
目标检索:定义:目标生成的特征是唯一的,在各个层次中都会携带这一特征。卷积:就是把这一特征,以新的方式展示出来,方便计算,存储,传输,增强等最后:经过反卷积,解出特征,在与目标进行比对,选择。...
2021-02-13 21:38:48
258
原创 spark的获取文件名称
spark的获取文件名称:rdd中获取http://cn.voidcc.com/question/p-yhavvflg-bhx.htmldf中获取还有一个是通过使用functions.input_file_name
2021-02-08 16:32:16
588
原创 特殊的hadoop
特殊的hadoop 1.没有reducer的demo: job.setNumReduceTasks(0);https://blog.youkuaiyun.com/boonya/article/details/54630808?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522161242952716780264021789%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%25...
2021-02-04 17:30:26
141
转载 DAG调度器
参考:https://houbb.github.io/2020/01/23/data-struct-learn-03-dag-schedule#%E8%B0%83%E5%BA%A6%E5%99%A8https://blog.youkuaiyun.com/dbqb007/article/details/89042984https://blog.youkuaiyun.com/silentwolfyh/article/details/53996845个人理解:调度器的目的:让各个节点按照顺序执行...
2020-11-03 10:43:41
298
原创 ES的操作,以及ES搭建二级索引
参考2篇blog注:优快云上关于这这个二级索引,例子单一,使用起来不是太合适ES6.5的操作:https://www.cnblogs.com/LUA123/p/9967638.htmlES简历二级索引:https://github.com/hyydouble/es-hbase/blob/master/src/main/java/com/daqsoft/AppMain2.java...
2020-10-19 15:28:49
982
原创 centos7安装单机版k8s
参考:https://lihaoquan.me/2017/2/25/create-kubernetes-single-node-mode.html
2020-10-14 19:52:24
640
转载 spark的累加器
在学习这个点的时候,问自己几个问题:1.累加器有什么用2.典型的应用场景3.怎么用4.是否可以自定义https://www.cnblogs.com/itboys/p/11056758.html
2020-09-28 16:48:20
172
转载 Hive指定查询输出分隔符
参考:https://blog.youkuaiyun.com/yeweiouyang/article/details/52560130
2020-09-26 18:05:48
465
转载 一篇文章看懂大数据的5大关键技术
大数据技术,就是从各种类型的数据中快速获得有价值信息的技术。大数据领域已经涌现出了大量新的技术,它们成为大数据采集、存储、处理和呈现的有力武器。大数据处理关键技术一般包括:大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等)。1.大数据采集技术数据采集是指通过RFID射频数据、传感器数据、社交网络交互数据及移动互联网数据等方式获得的各种类型的结构化、半结构化(或称之为弱结构化)及非结构化的海量数据,是大数据知识服务模型的
2020-09-11 11:34:43
14502
转载 k8s从入门到精通,普通讲解
转载自:https://blog.youkuaiyun.com/laughing_g/category_9128851.html?biz_id=102&utm_term=k8s%E4%BB%8E%E5%85%A5%E9%97%A8%E5%B8%A6%E7%B2%BE%E9%80%9A&utm_medium=distribute.pc_search_result.none-task-blog-2~all~sobaiduweb~default-0-category_9128851.html&sp
2020-09-10 16:23:49
458
原创 k8s的yml文件详解
1 apiVersion: v1 #指定api版本,此值必须在kubectl apiversion中 2 kind: Pod #指定创建资源的角色/类型 3 metadata: #资源的元数据/属性 4 name: django-pod #资源的名字,在同一个namespace中必须唯一 5 labels: #设定资源的标签,使这个标.
2020-09-10 16:22:26
1571
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅