- 博客(262)
- 收藏
- 关注
原创 day6_FlinkSQL实战
SQL Gateway 服务支持并发执行从多个client提交的 SQL。它提供了一种简单的方法来提交 Flink 作业、查找元数据和在线分析数据。SQL Gateway 由插件化的 endpoint 和组成。多个 endpoint 可以复用处理请求。endpoint 是用户连接的入口。用户可以使用不同的工具连接不同类型的 endpoint。语法。
2025-03-29 23:31:48
961
原创 day5_Flink基础
Flink的容错机制Flink的Checkpoint机制Sink端容错机制Flink的容错配置及测试Flink程序分布式部署运行选项Per-job启动步骤2步(1.yarn-session.sh;2.提交任务)1步(提交任务)1步(提交任务)JobManager在第一步启动,不会销毁,长期运行随着任务的提交而产生随着任务的提交而产生在第二步启动,任务运行完之后销毁随着任务的销毁而销毁随着任务的销毁而销毁客户端进程在客户端节点在客户端节点在集群中某个节点。
2025-03-29 22:55:50
1089
原创 day4_Flink基础
典型的使用场景如下:异常数据处理多类型数据分类下面是一个从 ProcessFunction 发出侧输出数据的例子,将数据集中的负数挑出来,输出侧输出中:基础合流操作既然一条流可以分开,自然多条流就可以合并。在实际应用中,我们经常会遇到来源不同的多条流,需要将它们的数据进行联合处理。所以 Flink 中合流的操作会更加普遍,对应的API 也更加丰富。最简单的合流操作,就是直接将多条流合在一起,叫作流的“联合”(union),联合操作要求必须流中的数据类型必须相同,合并之后的新流会包括所有流中的元素,数据类
2025-03-29 22:42:13
1155
原创 day3_Flink基础
Flink集群 -> Job(作业) -> Task(任务,根据宽依赖算子) -> SubTask(子任务,并行度)备注:Slot(槽) 固定的静态资源并行度:动态的任务执行参数并行度 <= 可用槽数量比如说:slot,只有4个但是,并行度设置为5Standalone集群,执行失败的。Yarn集群,可以正常执行。因为Yarn可以动态开启Container(TaskManager)水位线是插入到数据流中的一个标记,可以认为是一个特殊的数据。
2025-03-29 22:34:12
918
原创 day2_Flink基础
Flink的DataStream API可以让开发者根据实际需要,灵活的自定义Source,本质上就是定义一个类,实现SourceFunction或继承RichParallelSourceFunction,实现run方法和cancel方法。准备工作:定义一个JavaBean对象@Getter@Setter@ToString//唯一标识符//会话ID//事件id//时间戳//事件信息自定义source,实现SourceFunction接口,实现一个没有并行度的案例。
2025-03-29 22:14:25
1082
原创 day1_Flink基础
流式计算(实时计算)市场需求小结:流式计算需求趋向于火热。同时,由于大公司在推进,因此,互联网实时需求越来越旺盛。批量计算,数据是一批一批地计算,来一批处理一批。数据是有界的,数据是有开始,也有结束的。数据一旦产生,不会更改时效性低批量计算的优势,是对历史数据的处理。对于时效性要求不高。但是,对于一些时效性要求高的场景:这个时候,就需要流式计算了。生活中的流式场景比较多,比如水流,车流,人流(行人),气流,电流,如下图(以水流为例)这些流式场景,他们的共同点是:数据是源源不断,也就是不间断有开始,
2025-03-29 22:08:30
748
原创 day05_Java高级
主要学习下面这个代码:重点掌握的代码:3、SQL注入的问题 SQL注入:用户输入的内容作为了SQL语句语法的一部分,改变了原有SQL真正的意义。假设有登录SQL语句如下: SELECT * FROM 用户表 WHERE NAME = 用户输入的用户名 AND PASSWORD = 用户输的密码; 此时,当用户输入正确的账号与密码后,查询到了信息则让用户登录。但是当用户输入的账号为XXX 密码为:XXX’ OR ‘a’=’a时,则真正执行的代码变为: SELECT * FROM 用户表 WHE
2025-03-16 22:52:32
576
原创 day04_Java高级
数据结构是计算机存储, 组织数据的方式. 它是指相互之间存在一种或多种特定关系的数据元素的集合. 通常情况下, 精心选择的数据结构可以带来更高的运行或者存储效率。的形式来实现, 但是这样做比较繁琐, 我们发现上述的这些方法, 只有参数列表是变化的, 那能不能优化这个问题呢?直接创建它的对象, 我们可以通过多态的形式, 创建其子类对象. 从而实现创建Map集合对象的这个需求. 如果遇到让我们定义一些方法, 分别获取2个整数, 3个整数, 4个整数的和, 此时我们只能通过。
2025-03-16 22:28:30
1092
原创 day03_Java基础
API全称是Application Programming Interface(应用程序编程接口), 本意指的是JDK提供的各种功能的Java类和接口, 但是我们常说的”打开API”并不是指打开这些Java类和接口, 而是打开API帮助文档.说明: 看类在哪个包下. 如果是java.lang包下的类, 则无需导包, 可以直接使用. 而其他包下的类和接口, 在使用前必须先导包.定义一个日期转换的工具类, 根据传入的日期字符串, 日期的转换前格式, 和转换后的格式, 将其转换为指定格式的日期字符串。
2025-03-04 19:56:56
679
原创 day02_Java基础
方式一: 动态初始化 (我们给定长度, 由系统给出默认初始化值)格式一: 数据类型[] 数组名 = new 数据类型[长度];格式二: 数据类型 数组名[] = new 数据类型[长度];上述两种定义方式只是写法不同, 并无其他区别。推荐使用格式一方式二: 静态初始化(我们给定初始化值, 由系统指定长度)格式一:数据类型[] 数组名 = new 数据类型[]{元素1, 元素2, 元素3};格式二:数据类型[] 数组名 = {元素1, 元素2, 元素3};
2025-03-01 20:06:17
781
原创 day01_Java基础
计算机高级语言按照程序执行方式分为解释型语言和编译型语言两种。之前我们学的Python就属于解释型语言,Java等属于编译型语言。 解释型语言是指使用专门的解释器对源程序逐行解释成特定平台的机器码并立即执行的语言。 编译型语言是指使用专门的编译器,针对特定平台(操作系统)将某种高级语言源代码一次性“翻译”成可被该平台硬件执行的机器码(机器指令和操作数),并包装成该平台所能识别的可执行性程序的格式,这个转换过程成为编译。
2025-03-01 20:01:24
1035
原创 day16_推荐系统和总结
推荐系统一般是由Java后端与前端人员进行开发的,大数据开发人员比较少参与主要是提供数据。为了实现推荐功能,需要启动Hadoop、Hive、ES、Doris、SparkSubmit启动Hadoop、启动Hivecd /启动ES1- 切换用户su es2- 进入目录3- 启动4- 退出es用户exit启动Doris启动SparkSubmit ALS算法是2008年以来,用的比较多的协同过滤算法。它已经集成到Spark的Mllib库中,使用起来比较方便。
2025-02-21 20:43:30
1040
原创 day15_挖掘类标签和推荐系统
推荐系统一般是由Java后端与前端人员进行开发的,大数据开发人员比较少参与主要是提供数据。为了解决信息过载和用户无明确需求的问题,找到用户感兴趣的物品,才有了个性化推荐系统。推荐的方式主要分为两种:离线推荐和实时推荐。其中实时推荐一般是离线跑好模型,然后将模型进行部署,根据实时采集的数据实时进行推荐。离线推荐模块则是需要综合用户所有的历史数据,利用设定的离线统计算法和离线推荐算法周期性的进行结果统计与保存,一般运行时间比较长。
2025-02-21 20:28:43
811
原创 day14_挖掘类标签
决策树是一个类似于流程图的树结构:其中,每个内部结点表示一个特征或属性,而每个树叶结点代表一个分类。树的最顶层是根结点。使用决策树分类时就是将实例分配到叶节点的类中,该叶节点所属的类就是该节点的分类。特征选择:选取有较强分类能力的特征。决策树生成:典型的算法有 ID3 和 C4.5, 它们生成决策树过程相似, ID3 是采用信息增益作为特征选择度量, 而 C4.5 采用信息增益比率。
2025-02-21 19:20:03
673
原创 day13_挖掘类标签
人工智能:是关于赋予机器“智能”,使其能够模拟和执行人类的智能行为。人工智能的主要领域:自然语言处理:使计算机能够理解、解释和生成人类语言。例如,语音识别、机器翻译和聊天机器人。计算机视觉:使计算机能够从图像或视频中提取信息。例如,图像识别、面部识别和自动驾驶汽车的环境感知。机器人技术:开发能够自主执行任务的物理机器人。例如,工业机器人、医疗手术机器人和家庭服务机器人。专家系统:模仿人类专家的决策过程。例如,医学诊断系统和金融分析系统。推荐系统:根据用户的历史数据和偏好,向用户推荐产品或服务。
2025-02-21 19:10:24
933
原创 庐州月_古典水墨风格月夜图卷,青白月色浸染徽派古桥,柳絮纷飞如雪落乌篷船檐,工笔绢本设色融合写意留白。
波光粼粼的湖面倒映着鎏金灯影,远处黛色山峦隐现梨花微雨,近景红药花瓣飘落石阶,工致笔触勾勒桥头恋人剪影与船头独坐文士,冷调月华中点缀暖黄窗棂烛光,8K超清渲染保留宣纸肌理,雾化处理营造『当时只道是寻常』的时光朦胧感,水波纹理暗藏《寻雾启示》专辑篆印。《庐州月》这首歌是许嵩在2009年4月的时候在武汉的东湖边写下的。歌曲内容意思为庐州的月亮依然是当时月亮,但是当年月光下的两个人已经各奔东西了,这首歌蕴含了对友人的无尽思念。不知心上的你是否还在庐阳。不知心上的你是否还在庐阳。如今的你又在谁的身旁。
2025-02-20 12:14:14
264
原创 断桥残雪_江南冬夜水墨长卷,断桥覆残雪如宣纸留白,青灰屋檐垂挂冰棱,湖面倒映寒月泛起银鳞波纹。
画面中央桥面积雪显露出墨色石纹,指尖触及处冰雪渐融透出暖玉微光,冷调场景中暗藏春归将至的绛红渐变,新工笔技法融合数字绘画光影,8K超清呈现丝绸质感的卷轴肌理,定格许仙白娘子千年回眸的刹那凄美。作为许嵩正式出道的首张专辑《自定义》发行前的早期单曲之一,此作品收录于2007年专辑《Vae新歌+精选珍藏合辑》中,是许嵩早年中国风的代表作之一。而塞北,大漠上,就给人一种孤单的感觉,荒无人烟,像是说白天不懂夜的黑这样一个意思。失去后,整个世界就好像只有我一个人,看着满天的烟花,很美,很亮。寻不到花的折翼枯叶蝶,
2025-02-20 12:02:55
253
原创 day12_调度和可视化
将标签计算的代码,也就是每个四级标签对应的py文件上传到资源中心。比如创建tags文件夹,在tags文件夹下创建match文件夹,在match文件夹中上传匹配类标签。如果有前置SQL语句或后置SQL语句,可以添加在对应的地方,这里可以把set语句写在前置SQL中。数据连接选择Doris_DB_log_analysis_db,将右边的所有表选上,点击确定,完成。在工作中,需要配置前置任务,这里的前置任务应该是 dwm_sell_o2o_order_i。,因为计算标签的代码中使用到了相关的代码。
2025-02-18 15:02:46
690
原创 day11_实时类标签和ElasticSearch高级
MySQL CDC 连接器允许读取 MySQL 数据库的快照数据和增量数据。特性:支持多种数据库:如MySQL、Oracle等。零编码:自动建表和动态增删表,无需编写代码。高效读取:先进行数据快照,再跟踪binlog变化。确保一致性:实现exactly-once语义,即使在中断恢复情况下也不会出现数据重复。原理介绍:https://www.cnblogs.com/yeyuzhuanjia/p/17462461.htmlbefore:更新前的数据的情况。当op为c和r的时候,为null。
2025-02-17 10:49:21
1248
原创 day10_实时类标签
这些日志详细记录了用户与系统的交互细节,包括浏览、加购、下单、购买(支付)、退单等行为。通过获取用户的浏览行为数和最终的付款行为数后,可以计算出最终的转化率,然后根据转化率来对用户进行分组,再对不同分组的用户采取不同的营销方案。基类抽取的思路,不一样的部分交给子类实现, 基类中只是声明一下,一样的部分在基类中实现,子类只要继承。(2)计算逻辑偶尔发生变化的代码要抽取成实例方法,以参数传递的形式去修改不同的地方,方便后续进行复写。(1)可以把一些通用的方法定义成静态/类方法,这样可以方便其他代码的调用。
2025-02-14 09:05:44
985
原创 day09_实时类标签/指标
zookeeper、Kafka的启动命令启动zookeeper(没有启动的,才需要执行)启动KafkaKafka其他的相关命令查看当前集群有哪些Topic新建Topic(分区数没要求,副本数<=broker节点个数)参看Topic的详细信息注意: 要提前创建好Kafka的Topic。
2025-02-13 09:55:08
798
原创 day08_Doris和实时类标签
1. 简单来说是一个开源的实时分析型数据库,基于MPP(大规模并行处理)架构,专为高效处理大规模数据的实时查询和分析而设计。它能够提供亚秒级的查询响应时间,广泛应用于报表分析、用户行为分析、日志检索等场景。2. 具体最初由百度开发,名为Palo,后于 2018 年捐赠给 Apache 基金会并更名为Doris。高性能:通过列式存储、多级索引和智能压缩技术,实现高效的数据存储和查询。易用性:支持标准 SQL 语法,兼容 MySQL 协议,用户可以通过熟悉的工具和语言进行操作。实时性。
2025-02-11 09:04:23
761
原创 day07_统计类标签
PSM模型即价格敏感度测试模型,是目前在价格测试的诸多模型中,最简单、最实用。为大多数市场研究公司所认可。通过PSM模型,不仅可以得出最优价格,而且得出合理的价格区间。新会员:首次消费后30天内的;老会员:首次消费后大于30天;除此之外,还要区分没有消过费的会员。通过对会员进行标记,可以对不同会员采取不同的营销策略。比如电商网站要做一次营销活动,需要针对不同价值的客户群体进行分群,对于高价值的用户推荐手表,珠宝等高端商品,对于低价值用户推荐打折促销的廉价商品。
2025-02-08 15:46:59
803
原创 day06_统计类标签
USG(User Shopping Gender),即用户购物性别。那么如何来计算用户购物性别标签呢?购物性别男:N月购买的男性特征商品下单数> N月购买的女性特征商品下单数,且男性特征商品下单数占比>=0.01购物性别女:N月购买的男性特征商品下单数<N月购买的女性特征商品下单数,且女性特征商品下单数占比>=0.01购物性别中性:其他情况。
2025-02-07 09:36:58
306
原创 day04_匹配类标签
一般在大公司中,会有高级开发/架构师级别的人在项目开发初始阶段,从上帝视角对整个项目进行规划,抽取封装一些公共代码,形成整个项目的大体框架,如项目中的公共模块,工具类等……或者在项目开发初始阶段没有做合理的系统的规划,只是完成了基本的功能。需要注意的是数据的处理:国籍的数据是中文,跟标签的rule数据类型不同;在满足闭包语法的基础上,还需要在外部函数的形参这个地方,有且只能有一个形参,该形参用来接收被增强/修饰的函数。1- 作用:在不改变原始函数内容和函数调用的基础上,对函数功能进行增强。
2025-01-20 20:06:48
470
原创 day03_开发前准备和匹配类标签
因为本项目是建立在离线数仓的基础上,也就是说,在用户画像项目开始前,已经有部分数据进行了加工处理,所以在实际开发时,可以直接使用存储在Hive数仓中的数据,避免重复加工。
2025-01-19 22:13:08
852
原创 day02_ElasticSearch基础和SeaTunnel
Elaticsearch,简称为es,es是一个基于apache开源的高扩展的分布式全文检索引擎,它可以近乎实时的存储、检索数据;本身扩展性很好,可以扩展到上百台服务器,处理PB级别的数据。es也使用Java开发并使用Lucene作为其核心来实现所有索引和搜索的功能,但是它的目的是通过简单的RESTfulAPI来隐藏Lucene的复杂性,从而让全文搜索变得简单。1.简单来说是一个开源的分布式搜索引擎。
2025-01-19 21:55:59
1628
原创 day01_项目介绍和环境搭建
简单来说:用户画像就像是“用户的数字名片”,通过收集和分析用户的行为、兴趣、demographics(人口统计信息)等数据,构建出一个虚拟的用户模型,帮助企业更好地理解和服务用户。具体而言数据来源行为数据:用户的浏览、点击、购买等行为。兴趣数据:用户的偏好、关注点、兴趣标签。人口统计信息:用户的年龄、性别、地域、职业等。构建方法数据收集:通过日志、埋点、问卷调查等方式收集用户数据。数据分析:使用统计分析和机器学习方法,挖掘用户特征。标签化:将用户特征转化为标签,如“高消费用户”、“科技爱好者”
2025-01-19 20:58:03
804
原创 day_2_排序算法和树
选择排序(selection sort)的工作原理非常简单:开启一个循环,每轮从未排序区间选择最小的元素,将其放到已排序区间的末尾。因此,可以增加一个标志位。 在各个领域中考虑到数据的各种限制和规范,要得到一个符合实际的优秀算法,得经过大量的推理和分析。所谓排序,使一串记录,按照其中的某个或某些关键字的大小,递增或递减的排列起来的操作。记忆:具有相同关键字的纪录经过排序后,相对位置保持不变,这样的算法是稳定性算法。无论是简单的升序,还是复杂的分类排列,排序都向我们展示了数据的和谐美感。
2025-01-15 17:00:38
1182
原创 day_1_数据结构与算法
知道什么是数据结构知道什么是算法我们如何用Python中的类型来保存一个班的学生信息?如果想要快速的通过学生姓名获取其信息呢?实际上当我们在思考这个问题的时候,我们已经用到了数据结构。列表和字典都可以存储一个班的学生信息,但是想要在列表中获取一名同学的信息时,就要遍历这个列表,其时间复杂度为O(n),而使用字典存储时,可将学生姓名作为字典的键,学生信息作为值,进而查询时不需要遍历便可快速获取到学生信息,其时间复杂度为O(1)。
2025-01-14 17:03:50
821
原创 day10_Structured Steaming
简单来说:有界数据就像是“有限的书本”,数据量固定且已知;无界数据则像是“无限的河流”,数据持续生成且量未知。具体而言有界数据定义:数据量固定且已知,处理完成后任务结束。示例:存储在文件或数据库中的历史数据。处理方式:适合批处理(Batch Processing),如使用Spark的RDD或DataFrame处理。无界数据定义:数据持续生成且量未知,处理任务通常不会结束。示例:实时日志流、传感器数据、用户点击流。处理方式。
2025-01-14 15:03:52
1214
原创 day09_kafka高级
Kafka Eagle是一个用于监控和管理kafka的开源组件,可以同时监控多个kafka集群,通过Kafka Eagle可以看到当前的消费者组,对于每个组,他们正在使用的主题以及该组在每个主题中的偏移量,消费积压等等JMX(Java Management Extensions,即 Java 管理扩展)是一个为应用程序、设备、系统等植入管理功能的框架。kafka 中已经集成该框架它提供了对Java应用程序和JVM的监控和管理功能。
2025-01-13 13:26:23
1452
原创 day08_Kafka
MQ:message queue消息队列activeMQ: 出现时期比较早的一款消息队列的中间件产品,在早期使用人群是非常多,目前整个社区活跃度严重下降,使用人群很少了rabbitMQ: 此款是目前使用人群比较多的一款消息队列的中间件的产品,社区活跃度比较高,主要是应用传统业务领域中rocketMQ: 是阿里推出的一款消息队列的中间件的产品,目前主要是在阿里系环境中使用,目前支持的客户端比较少,主要是Java中应用较多。
2025-01-12 19:22:22
992
原创 1555银行账户概要_pandas解答
__________________________________________二.答案_MySQL一图解MySQL一图解__可只需看此!!!上面sql转为pandas------------------------------------------------------------------------------1. 方法分析流程图#mermaid-svg-kvZ5nBaH5NT9CHlA {font-family:"trebuchet ms",verdana,arial,sa
2025-01-12 00:01:25
1060
原创 day07_Spark SQL
分析函数 over(partition by xxx order by xxx [asc|desc] [rows between xxx and xxx])分析函数可以大致分成如下3类:1- 第一类: 聚合函数 sum() count() avg() max() min()2- 第二类: 排序函数 row_number() rank() dense_rank()3- 第三类: 其他函数 ntile() first_value() last_value() lead() lag()
2025-01-10 14:52:15
1337
原创 day06_Spark SQL
分析函数 over(partition by xxx order by xxx [asc|desc] [rows between xxx and xxx])分析函数可以大致分成如下3类:1- 第一类: 聚合函数 sum() count() avg() max() min()2- 第二类: row_number() rank() dense_rank() ntile()3- 第三类: first_value() last_value() lead() lag()
2025-01-09 13:30:38
1367
原创 day05_Spark SQL
Spark SQL是Spark多种组件中其中一个,主要是用于处理大规模的**【结构化数据】**什么是结构化数据: 一份数据, 每一行都有固定的列, 每一列的类型都是一致的 我们将这样的数据称为结构化的数据例如: mysql的表数据1 张三 202 李四 153 王五 184 赵六 12简单来说:Spark SQL是Spark中用于处理结构化数据的模块,就像是“SQL与大数据之间的桥梁”,让用户能够用熟悉的SQL语句查询和分析大规模数据。具体而言核心功能。
2025-01-08 23:04:53
1770
2
文字生成视频-可灵1.6
2025-01-04
文字生成视频-可灵1.6
2025-01-04
文字生成图片-可灵1.6
2025-01-03
文字生成图片-可灵1.6
2025-01-03
文字生成视频-动漫-pix
2025-01-02
文字生产视频-可灵1.6
2025-01-02
文字生成视频-动漫-pix
2025-01-02
文字生成视频-可灵1.6
2025-01-02
文字生成视频-动漫-pix
2025-01-02
文字生产视频-可灵1.6
2025-01-02
图片生成视频-可灵1.6
2025-01-01
图片生成视频-PixVerseV3.5
2024-12-31
图片生成视频-可灵1.5
2024-12-31
图生视频-动漫-国产模型
2024-12-31
文字生成视频-3D-爱诗科技
2024-12-30
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人