- 博客(285)
- 资源 (32)
- 收藏
- 关注

原创 Flinkcdc通过catalog同步mysql数据到hologres的ods中
【代码】Flinkcdc通过catalog同步mysql数据到hologres的ods中。
2024-03-15 23:08:30
476

原创 AI入门之旅:从基础知识到实战应用(一)
人工智能入门之旅:从基础知识到实战应用(一)主要介绍了发展人工智能的重要性。人工智能的主要发展阶段和现代人工智能的主要分支领域,以及当前热门话题如AI伦理、AI安全及人工智能的应用场景。
2024-03-14 20:14:43
603

原创 Flinksql实时计算——group by key和 group by key 带窗口聚合有什么不同
带窗口聚合时,你可以指定一个时间窗口(如过去一小时、过去一天等),并在这个时间窗口内对 key 进行聚合。这允许你分析在特定时间范围内的数据,而不是整个历史数据集。这个聚合是基于 key 的所有历史数据进行的,不考虑时间窗口或数据排序。在处理流数据时特别有用,因为它允许你分析数据的实时变化,而不仅仅是整个数据集的历史聚合。查询将返回每个用户在每个一小时窗口内的行为数。带窗口聚合的主要区别在于它们如何处理数据的时间维度和计算结果的粒度。函数用于确定每个小时的时间窗口的开始时间,而。这些区别使得带窗口的。
2024-03-05 21:10:25
1132

原创 如何构建基于Flink+Hologres的实时数仓
总之,通过上述步骤,可以构建出一个基于Flink和Hologres的实时数仓,实现数据的实时处理、存储和分析,帮助企业快速响应市场变化,提升决策效率。
2024-03-05 21:05:12
741

原创 flink任务cpu和内存资源的计算
JVM堆大小:JVM堆大小越大,可以同时运行的线程数就越多。因此,我们可以尝试提高JVM堆大小以提高并发度,从而降低CPU和内存的使用量。数据规模:Flink任务需要的CPU和内存与数据规模成正比。如果数据规模较大,那么任务需要更多的CPU和内存来处理数据。Flink任务需要的CPU和内存取决于任务的具体实现和数据规模。并行度:Flink任务的并行度越高,需要的CPU和内存就越多。
2023-06-18 22:13:46
2581

原创 Flink实时计算资源如何优化
并发优化:Flink任务需要多个线程或进程来并发执行计算操作。因此,我们需要尽可能地提高并发度以提高任务的性能和效率。CPU优化:Flink任务需要大量的CPU资源来执行计算操作。因此,我们需要尽可能地减少CPU的使用量。内存优化:Flink任务需要大量的内存来存储数据和状态信息。因此,我们需要尽可能地减少内存的使用量。flink实时计算任务可以从以下四个方面进行优化。
2023-06-18 22:10:56
1745

原创 sparksql关于grouping()函数在多维cube聚合的应用
在sparksq下,也可以使用grouping(xx)来组合多维cube的维度组合。
2022-07-15 08:52:01
788

原创 hivesql和sparksql 关于cube中Grouping__ID的推理
sparksql中Grouping__ID的推理hivesql中Grouping__ID的推理
2022-05-11 15:53:30
635

原创 基于flinksql的实时计算案例
因公司发展需要,需半小时统计一次截止到当前时间的关键指标的当日累计值。v1.0 链路采取的是 kafka-> clickhouse在设计的时候,一开始本人是想一个flinksql从source到transform到sink完成.v2.0 链路采取的是 kafka->kafka-> clickhouse奈何公司平台sink到ck的时候不支持upsert流。因此只能分解到先用一个flinksql加工出dwd.再起一个任务从dwd读数加工到ck....
2021-10-25 10:22:35
1431

原创 维度建模--累积快照事实表
一、明细层分区日期为终态业务过程日期,其余归档30001231分区采用二级分区:create table target_table(COL …) partitioned by (state string,dt string);–partition(state=“china”,dt),表示state为静态分区,dt为动态分区,以src_table中的city字段为分区名insert overwrite table target_table partition(state=“3”,dt) selec
2021-08-24 19:15:25
367

原创 维度建模 -- 单事务与多事务事实表
一、明细层分区日期为数据数据处理日期每次ods层来的是新增与变化的记录,可能一个业务主键会有多条事件记录,中间状态数据不会丢失。对数据处理日期该事件是否发生打标签每天新增与变化的数据里面,通过状态和事件发生时间(与数据处理日期相比较),如果是事件处理日期发生的事件,则标记为is_td_xxx发生,字段值赋为1,当然也存在数据处理日期前发生的记录,因为有其他属性值发生变更导致存在于当日变化的数据里面,这部分数据因为is_td_xxx为false,0 ,后续汇总层统计时,并没有计算在内。二、汇总层
2021-08-22 20:44:04
791

原创 大数据面试要点归纳总结
1.数据仓库2.HadoopHDFS HA在故障切换期间,ZooKeeper主要是发挥什么作用呢,有以下几点:失败保护:集群中每一个NameNode都会在ZooKeeper维护一个持久的session,机器一旦挂掉,session就会过期,故障迁移就会触发Active NameNode选择:ZooKeeper有一个选择ActiveNN的机制,一旦现有的ANN宕机,其他NameNode可以向ZooKeeper申请排他成为下一个Active节点防脑裂: ZK本身是强一致和高可用的,可以用它来保
2021-06-21 18:07:26
330

原创 hadoop3.1.3+flink1.12.0-hive3.1.2-kafka2.12-2.5.0+kudu1.14.0+clickhouse21.4.6.55 流批一体数据仓库架构体系
目前整个过程的核心是flink批处理选择用pyflink流处理选择用java+flink当然之所以这么选择,是跟我的技术栈有关。因为本人之前一直从事离线数仓的工作,批处理一直选择的脚本语言包括python,perl,甚至是kettle脚本。遇到实时数据处理,通常是springboot下面的 消息订阅机制(activemq,rabbitmq,kafka)来处理。虽然也能应付实时的要求,但是数据量上来后明显感觉力不从心。另外维护两套引擎,维护工作实在是麻烦。直接看到flink的出现,感觉etl流批可以一体
2021-05-24 15:19:34
821
3

原创 hadoop3.1.3+flink1.12.0-hive3.1.2-kafka2.12-2.5.0+hbase-2.2.2 流批一体数据仓库搭建
准备工作centos7 64位 服务器3台:cetiti104 ceiti105 cetiti106 ,实现免密互通。jdk:jdk1.8.0_121 ,3台服务器jdk安装完毕kafka:kafka_2.12-2.5.0flink:1.12.0hadoop:3.1.3hive:3.1.2步骤:第一步安装 hadoop3.1.3集群第二步安装hive3.1.2第三步安装flink:1.12.0第四步安装kafka_2.12-2.5.0附件:1.install.sh2.jdk1.8
2021-03-11 16:14:30
746
原创 AI 是否会通过制造大量垃圾信息来污染互联网
AI确实可能通过生成大量垃圾信息污染互联网,但通过技术、政策、教育等多方面的努力,可以有效减少这种影响。关键在于提高生成内容的质量,同时发展强大的检测和过滤技术,并确保公众了解和能应对这些新出现的挑战。
2024-06-21 21:10:51
1089
1
原创 如何通过AI进行智能日志异常检测
智能日志异常检测是一种利用人工智能(AI)技术来自动识别日志数据中异常模式或行为的方法。传统日志监控依赖于预定义规则,而智能日志异常检测可以适应不同的日志模式和异常类型,提高检测准确性和效率。下面是一个完整的步骤指南,如何通过AI进行智能日志异常检测。
2024-06-21 21:07:55
2291
原创 人工智能中实现自动化决策与精细优化的核心驱动力
通过收集和分析大量的数据,AI系统能够识别模式、趋势和异常,从而做出数据驱动的决策。先进的机器学习和深度学习算法通过不断学习数据中的特征和规律来进行决策和优化。在许多自动化决策任务中,目标是优化某个性能指标,如成本、时间、资源等。这些驱动力共同作用,使AI系统能够自动化复杂的决策过程并不断优化性能。在某些领域,专家知识和规则可以显著提高决策质量。它们通常集成统计分析、数据挖掘和可视化技术。它依靠奖励机制来学习最佳策略。
2024-06-15 17:58:08
1220
原创 采用卷积神经网络分类MNIST数据集与基础知识
MNIST(Modified National Institute of Standards and Technology)数据集是一个手写数字的图像数据库,用于机器学习领域中的图像分类任务。它包含60,000张训练图像和10,000张测试图像,图像大小为28x28像素,每张图像都属于从0到9的10个类别之一。
2024-06-15 17:55:22
1157
原创 Milvus向量数据库
Milvus 是一个开源的向量数据库,专为处理高维向量数据而设计,常用于大规模向量相似性搜索和基于向量的机器学习应用。它支持高效地管理、搜索和操作嵌入(如文本、图像、音频的特征向量),在推荐系统、图像检索、语义搜索等领域有广泛应用。
2024-06-14 20:35:00
466
原创 TF-IDF算法
TF-IDF(Term Frequency-Inverse Document Frequency)是一种用于文本挖掘和信息检索的加权统计方法,帮助衡量一个词语(术语)在一个文档集或一个语料库中的重要性。TF-IDF广泛应用于搜索引擎、文本分类和推荐系统中。
2024-06-14 20:33:35
517
原创 人工智能在问题答疑领域的应用
人工智能在问题答疑领域的应用极大地提高了效率和用户体验,涵盖了从客户支持到教育、医疗和技术支持等多个方面。通过结合自然语言处理、知识图谱和机器学习等技术,AI系统能够提供准确、快速和个性化的答案,成为现代服务业和产品中不可或缺的工具。人工智能(AI)在问题答疑领域的应用已成为一项关键技术,提供了高效、实时的解答服务。这里详细描述了AI如何在多个方面实现问题答疑功能。
2024-06-13 20:23:30
1182
原创 基于CNN-RNN模型的验证码图片识别
基于CNN-RNN模型的验证码识别方法能够有效处理复杂的验证码问题,结合了卷积神经网络的特征提取能力和循环神经网络的序列建模能力。通过使用CTC解码,可以在没有逐帧标注的情况下预测验证码中的字符序列。这种方法在实际应用中具有很高的准确率和适应性。
2024-06-13 20:21:54
1129
1
原创 Qwen2大模型原理、训练及推理部署实战
这些步骤展示了从训练到部署的整个流程。Qwen-2使用的实际细节和技术可能更复杂,涉及特定的优化算法和框架,但以上提供了一个基本的概念和流程。Qwen-2基于Transformer架构,这是现代NLP模型的基础。
2024-06-10 19:34:30
1800
原创 人工智能--测试领域的运用
人工智能(AI)在软件测试领域的应用日益广泛,能够提升测试效率、覆盖面和智能化程度。以下是AI在测试中的主要应用、实现方法、工具及挑战。
2024-06-09 23:09:46
1974
原创 基于大模型的Code Review
利用自然语言处理(NLP)模型,如GPT-4,对代码进行静态分析和生成建议。这些模型可以理解自然语言描述的代码意图,并生成代码评论、建议或改进点。
2024-06-09 23:07:00
1537
原创 计算引擎:Flink核心概念
Flink 通过其核心概念如 DataStream 和 DataSet API、执行环境、状态管理、时间语义、窗口操作、水印、连接器等,提供了一种强大而灵活的流处理框架。它的丰富功能和可扩展性使其在处理实时数据流和批处理任务方面非常出色。
2024-06-07 21:52:42
1196
原创 GPT-4 和类似的先进语言模型正在重塑人类与人工智能(AI)互动的方式
GPT-4 正通过增强自然语言理解、个性化互动、知识获取、多模态互动、复杂任务处理、情感理解、教育支持、创意支持以及对话系统开发等多方面的能力,推动人类与 AI 之间的新型对话。这种对话更加自然、智能,能够更好地满足用户的各种需求,显著提升了人机互动的质量和效率。
2024-06-07 21:51:10
789
原创 神经网络与深度学习中的目标检测与语义分割
由于物体的尺寸变化范围大,摆放物体的角度和姿态不定,且可以出现在图片的任何地方,因此目标检测是一个具有挑战性的任务。而语义分割则是将图像中的每个像素分配给特定的类别,从而实现对图像的精细分割。总的来说,目标检测与语义分割在神经网络与深度学习中各有侧重,但都是计算机视觉领域的关键技术,为图像理解和分析提供了强大的工具。随着技术的不断进步,它们在各个应用场景中的性能也在不断提升,为人们的生活带来了更多的便利。深度学习的目标检测算法可以学习到更多的特征和语义信息,从而提高了算法的准确性。
2024-04-27 22:18:21
619
原创 如何使用逆滤波算法deconvwnr恢复图像
需要注意的是,逆滤波在实际应用中可能会导致噪声放大,尤其是在信噪比较低的情况下。因此,在使用逆滤波进行图像恢复时,需要小心调整参数,以平衡去模糊和去噪之间的关系,以及应用适当的后处理技术来改善结果。逆滤波是一种常用的图像恢复技术,其中 Wiener 滤波器是其中的一种类型。逆滤波的主要思想是通过逆转图像受到的模糊过程,来尝试恢复原始图像。是估计的图像信噪比,它影响了 Wiener 滤波器的参数。更高的信噪比估计会导致更多的去噪,但也可能导致图像细节的丢失。这样,就可以得到原始图像经过逆滤波恢复后的图像。
2024-04-26 21:57:13
725
1
原创 基于VMD-CNN-BiLSTM-Attention组合模型时间序列预测
VMD-CNN-BiLSTM-Attention组合模型是一种复杂的神经网络结构,用于时间序列预测。在训练过程中,通常使用已知的时间序列数据对模型进行监督学习,以调整模型的参数以使其能够更好地拟合数据。:BiLSTM是一种循环神经网络(RNN)的变种,能够捕捉时间序列数据中的长期依赖关系。需要注意的是,实现这样一个复杂的组合模型需要大量的计算资源和调试工作,同时也需要谨慎地调整每个组件的参数以获得最佳的性能。:CNN是一种经常用于处理图像数据的神经网络结构,但在时间序列分析中也有应用。
2024-04-26 21:52:15
859
原创 深度学习--RNN循环神经网络和LSTM
深度学习中的循环神经网络(RNN)以及其中的一个变种长短期记忆网络(LSTM)是在序列数据处理方面非常重要的模型。下面我将详细介绍这两种网络的原理和应用。
2024-04-25 23:28:56
721
原创 大模型公开课MLLM底层技术以及算力支持
理解大型语言模型(MLLM)的底层技术和所需的算力支持需要深入探讨自然语言处理(NLP)和深度学习的原理。下面我将介绍大型语言模型的底层技术、其背后的原理以及所需的算力支持,以及如何应对相关的挑战。
2024-04-25 23:24:18
1458
原创 拉索回归(Lasso)算法原理讲解
拉索回归(Lasso Regression)是机器学习中的一种线性回归方法,它在回归问题中加入了L1正则化项,有助于进行特征选择和模型稀疏化。通过加入L1正则化项,拉索回归提供了一种有效的方法来解决线性回归中的过拟合问题,并同时进行特征选择,是一种常用的机器学习算法之一。
2024-04-24 21:35:51
1410
原创 概率图模型--贝叶斯网络与马尔可夫随机场
这些模型在机器学习中的应用范围广泛,它们能够有效地建模复杂的数据结构,并提供强大的推理和预测能力,因此在实际问题中被广泛采用。概率图模型在机器学习中扮演着重要的角色,特别是贝叶斯网络和马尔可夫随机场。
2024-04-24 21:34:06
1088
原创 用爬虫玩转石墨文档
使用爬虫来与石墨文档(Notion-like platforms)交互涉及几个关键步骤和注意事项。这里提供一个概念性的指南,帮助理解如何以合适的方式和遵守规定来实现数据抓取的目的,请确保你的行为符合石墨文档的服务条款及适用的法律法规。
2024-04-22 21:24:55
675
原创 详细解读DreamFusion
DreamFusion是文本驱动的3D内容生成技术的一次重大进步,它融合了最新的机器学习研究成果,特别是文本到图像生成模型和神经辐射场技术,极大地提升了3D内容创作的效率和质量。这一技术的发展,预示着未来3D设计和元宇宙内容创造将更加依赖于智能化工具,为创意行业开启新的篇章。
2024-04-22 21:14:56
1042
检查指定网站是否存在基于SQL注入的漏洞
2024-04-06
一个大数据开发的小案例
2024-04-04
一个游戏开发的小案例程序
2024-04-04
一个前端开发的小案例脚本
2024-04-04
一个后端开放的小案例脚本
2024-04-04
YOLO的一个小case
2024-03-24
一个JAVAspring的DEMO
2024-03-24
PHP的一个简单的脚本
2024-03-23
一个JavaScript脚本示例
2024-03-23
C++ 程序的一个小示例
2024-03-23
C#的一个 WPF应用程序
2024-03-23
Go创建一个简单的 Web 服务器
2024-03-23
Scratch的一个小脚本
2024-03-23
汇编语言的一个小脚本示例
2024-03-19
Objective-C示例程序脚本
2024-03-19
线性回归算法的Python小Demo
2024-03-18
PyTorch介绍&心得
2024-03-16
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人