- 博客(148)
- 收藏
- 关注
原创 DeepWalk算法与矩阵介绍
DeepWalk 是一种无监督学习方法,核心思想是将图中的节点通过随机游走生成类似句子的结构,并利用自然语言处理中的 Skip-Gram 模型学习节点的表示向量。DeepWalk 算法将图结构与自然语言处理相结合,通过随机游走和 Skip-Gram 模型学习节点的低维嵌入。本文介绍了其核心流程、矩阵表示,以及 Python 实现代码,最后还展示了 Gamma 函数的相关公式。希望能帮助大家更好地理解和实现 DeepWalk 算法。全局关系总结随机游走(步骤 1。
2025-01-04 18:55:54
1048
原创 循环神经网络(RNN):原理与应用
循环神经网络是一种具有内部循环连接的神经网络,这些循环连接使得网络能够使用先前时刻的输出作为当前时刻的输入,形成“记忆”机制。RNN 的关键特性是能够处理和学习序列数据的时序关系,即每一个时刻的输入不仅依赖当前的输入数据,还与之前时刻的信息相关。
2024-12-25 15:30:00
1180
原创 卷积神经网络(CNN):基础概念与应用
卷积神经网络是一种具有特殊结构的前馈神经网络,主要由卷积层(Convolutional Layer)、池化层(Pooling Layer)、全连接层(Fully Connected Layer)等组成。与传统的前馈神经网络不同,卷积神经网络通过使用卷积操作来提取图像中的局部特征,并通过层次化结构逐渐组合成更高层次的特征表示。
2024-12-25 09:15:00
1363
原创 Struct2Vec:一种捕获结构相似性的图嵌入方法
邻域相似性(Neighborhood Similarity)两个节点共享相似的邻居。例如,社交网络中的好友。结构相似性(Structural Similarity)两个节点在图中的结构位置相似,但可能没有直接的连接。例如,在一个公司网络中,两个部门经理可能具有相似的角色(都管理团队),但彼此没有直接联系。传统的图嵌入方法(如 Node2Vec、DeepWalk)通常关注邻域相似性,而 Struct2Vec 则专注于捕获结构相似性。Struct2Vec 的第一步是为每个节点定义其结构特性。
2024-12-24 21:52:51
933
原创 深度前馈神经网络:基础概念与应用
深度前馈神经网络(DNN)是一类由多个层(层包括输入层、隐藏层、输出层)组成的神经网络。每一层的节点(神经元)通过带权重的连接与上一层的节点连接。与其他类型的神经网络不同,前馈神经网络的特点是数据的流动是单向的,即信息从输入层流向输出层,并且没有环路或反馈。
2024-12-24 16:29:54
702
原创 深入理解图的拉普拉斯矩阵:图数据处理的核心工具
图的拉普拉斯矩阵是用来描述图结构和节点关系的一个重要数学对象。它通过图的邻接关系以及节点的度来刻画图的结构,广泛应用于图论、图神经网络、谱图理论等领域。假设我们有一个无向图 $ G = (V, E) $,其中 $ V $ 是节点集合,$ E $ 是边集合。拉普拉斯矩阵 $ L $ 主要有两种常见的形式:标准拉普拉斯矩阵和归一化拉普拉斯矩阵。
2024-12-24 16:15:25
1549
原创 什么是MLP?
MLP 是一种经典的神经网络模型,适用于多种任务。虽然随着深度学习的发展,更多复杂的模型(如 CNN、RNN、Transformer)逐渐取代了 MLP 在某些领域的地位,但 MLP 仍是学习和研究神经网络的基础。在实际应用中,结合具体场景选择合适的模型是关键。
2024-12-19 20:10:52
2000
1
原创 如何在 Git 中恢复到历史版本
在开发过程中,我们经常会遇到这样的情况:新代码出现问题,需要回退到之前的版本。在 Git 中,回退到历史版本是一个常见的需求。本文将介绍几种常见的操作方法,以及相关的注意事项。),不会影响当前分支。如果需要将当前分支的状态永久回退到之前的版本,可以使用。: 如果不确定未提交的更改是否需要,可以临时保存到。: 如果当前分支已推送到远程仓库,建议在回退后使用。在执行回退操作之前,首先需要找到目标版本的。此时,代码库会切换到指定版本的状态,但。找回之前的提交记录。查看历史版本时,可能出现。
2024-12-19 16:59:03
4006
原创 常见相似性度量指标的全面介绍
相似性度量指标是数据分析中不可或缺的工具。集合相似性推荐Jaccard和Dice。向量相似性推荐Cosine和Tanimoto。定制化需求可以使用Tversky指数进行权重调整。
2024-12-16 16:20:25
1018
原创 全面解读深度学习中的编码器与解码器:原理、应用与代码示例
是两种非常重要的组件。编码器接受原始输入(如图像、文本、图结构数据等),逐层提取特征,最终将其表示为一个固定长度或结构的向量(即隐层表示,Latent Representation)。编码器和解码器是深度学习模型中的重要组成部分,它们分别负责提取特征和生成目标输出。解码器的任务是根据编码器生成的特征表示 ( Z ),将其还原为目标输出(如翻译后的句子、预测的标签、生成的图像等)。在图神经网络中,编码器用于提取节点或图的嵌入表示,而解码器用于生成任务输出(如边的权重预测、节点分类等)。
2024-12-15 18:09:31
2091
原创 AI加持下的电商行业:购物推荐、会员分类与商品定价的创新应用
AI 技术正在以全方位的方式改变电商行业的运营模式。从推荐系统的智能化,到会员分类的动态调整,再到商品定价的精细化管理,AI 赋予电商平台更强的适应能力和竞争优势。随着深度学习、强化学习等技术的进一步发展,未来的电商平台将更加个性化、智能化。我们可以预见,AI 技术的应用将继续推动电商行业的数字化转型,为用户和企业带来更多价值。
2024-12-15 16:25:06
995
原创 【论文解读】GRAPH-BERT: Only Attention is Needed for Learning Graph Representations
Graph-BERT 是一种基于 Transformer 的图神经网络,旨在解决传统 GNN 模型中的过平滑 (over-smoothing) 和悬置动画 (suspended animation) 问题。Graph-BERT 提供了一种高效的图表示学习方法,通过去除对邻接关系的直接依赖,结合多维特征嵌入和 Transformer 编码器,显著提升了学习性能。Graph-BERT 的核心是基于 Transformer 的编码器,用于对节点特征进行上下文编码。Graph-BERT 从全局图中采样。
2024-12-14 19:32:17
867
原创 【论文解读】Graph‑BERT and language model‑based framework for protein–protein interaction identificatio
这篇论文提出了一种利用 Graph-BERT 和语言模型的框架,用于蛋白质-蛋白质交互 (PPI) 的预测。研究背景蛋白质是所有生物过程中不可或缺的分子,许多功能依赖于蛋白质之间的交互(如细胞信号传递、DNA 复制等)。PPI 数据通常通过实验获得,但实验方法成本高且时间耗费大,且可能产生较高的假阳性和假阴性。为弥补这一不足,基于计算的 PPI 预测方法得到了广泛应用,特别是深度学习模型。现有基于图神经网络(如 GCN)的 PPI 方法可能存在过平滑和悬置动画问题。
2024-12-14 15:16:28
976
原创 最小栈(MinStack)算法:高效的栈数据结构
栈(Stack)是一种后进先出(LIFO, Last In First Out)的数据结构。你可以把它想象成一个装满书的书架,最后放上的书最先被取走。push:将元素放入栈顶。pop:从栈顶移除元素。peek:查看栈顶元素但不移除它。最小栈是栈的一种扩展,它不仅支持基本的栈操作,还能在常数时间内返回栈中的最小元素。这一特性在许多应用中都非常有价值,比如在处理数据时需要频繁查询最小值的场景。通过MinStack的实现,我们不仅学习到了如何设计一个高效的栈数据结构,还掌握了如何利用辅助栈来优化操作。
2024-08-16 16:03:43
676
原创 在旋转排序数组中查找目标值的算法探究
旋转排序数组是指一个已排序的数组,经过某种方式的旋转。在这个数组中,虽然元素依旧是有序的,但由于旋转,我们的查找方式也需要调整。通过这段代码的分析,我们不仅了解了如何在旋转排序数组中查找目标值,还掌握了如何通过调整二分查找的思路来适应不同的需求。正如《算法导论》中所提到的,算法的设计与分析是计算机科学的核心能力,而善用算法的灵活性,则是程序员不断进步的关键。希望这篇博客能帮助您更好地理解旋转排序数组的查找过程,并激发您对算法的探索热情。如果您有任何疑问或想法,欢迎在评论区交流!
2024-08-16 15:37:04
476
原创 程序员如何平衡日常编码工作与提升式学习?
随着技术的不断演进,开发工具和框架层出不穷,程序员不仅需要高效完成日常的编码任务,还需不断学习新技术、深化专业知识,以应对日益复杂的项目挑战。”在这个不断变化的技术领域,程序员们不仅要做好眼前的工作,更要不断审视自己的成长路径,追求更高的专业水平和职业发展。然而,通过制定合理的学习计划、利用工作中的学习机会、实践与理论相结合、时间管理与优先级设定,以及加入学习社区等策略,程序员可以在高效工作的同时,持续推动自我提升。程序员可以在空闲时间进行小项目的开发,将学习到的知识应用于实际,提升学习的效果。
2024-08-15 19:24:57
581
1
原创 Spark RDD常用算子操作详解
RDD,全称为Resilient Distributed Dataset,是一种分布式的数据集,具有容错能力。它是Spark的核心数据抽象,允许我们以并行和分布式的方式处理数据。RDD支持两类操作:转化(Transformations)和行动(Actions)。
2024-07-29 20:13:44
1104
原创 IT专业入门,高考假期预习指南
高考结束后的这个假期,是你潜心学习、提前预习IT专业知识的黄金时期。通过明确的学习计划和目标,你可以在即将到来的大学生活中占据先机。不论是编程基础、算法与数据结构,还是计算机基础与前沿技术的探索,系统而扎实的学习将为你的IT职业生涯打下稳固的基础。祝愿所有准新生在这个假期中充实自己,迎接未来的挑战和机遇!记住,这只是一个开始,IT领域是一个需要持续学习和创新的行业。希望这份预习指南能够帮助你顺利开启IT世界的大门,成为未来的科技先锋。
2024-07-01 15:09:17
883
原创 2024年,计算机专业还值得选择吗?
2024年高考即将落幕,数百万高三学生将面临人生中的重要抉择:选择大学专业。在这个关键节点,计算机相关专业是否仍然是“万金油”的选择呢?近年来,计算机科学与技术、人工智能、网络安全、软件工程等专业一直备受关注。然而,随着行业竞争加剧和市场饱和度提高,这类专业是否仍具有长远的发展潜力和就业前景?本文将通过详细的数据分析、行业现状评估以及个人视角的探讨,全面论述计算机专业在2024年是否值得选择。2024年选择计算机专业依然具有广泛前景和吸引力。
2024-06-11 16:14:31
3171
原创 SQL 入门教程
SQL(Structured Query Language,结构化查询语言)是一种用于管理和操作关系数据库的标准语言。SQL 被广泛应用于数据库管理系统中,如 MySQL、PostgreSQL、Oracle、Microsoft SQL Server 等。数据查询语言 (Data Query Language, DQL):主要用于查询数据。数据操作语言 (Data Manipulation Language, DML):用于插入、更新和删除数据。
2024-06-06 19:43:04
477
1
原创 小红书离线数仓提效新思路
现有以 Spark 为核心的数仓架构在处理大规模数据回刷方面已取得进展,但在资源和时间消耗上仍面临挑战。为了突破这些限制,小红书数据仓库团队将 StarRocks 融入到离线处理流程,替换掉部分 Spark 处理的任务,并优化较为耗时的 Cube 计算,大幅度提高了数据的执行效率。将作业执行时间从小时级压缩至分钟级,计算资源使用量降低 90% 以上,日数据产出时间提前 1.5 小时,回刷时间减少 90%,回刷成本减少 99% 以上。
2024-06-06 19:38:44
1081
原创 阿里建设一站式实时数仓的经验
Hologres作为大数据OLAP分析与线上服务的统一出口,一套系统就能提供分析和服务2种能力。依托Hologres,再结合阿里大数据产品矩阵如DataWorks, MaxCompute, Flink, DLF等,能非常完美地支持实时离线一体、分析服务一体、湖仓一体、流批一体等场景。
2024-06-06 19:33:39
1097
原创 京东零售数仓的发展过程以及建设框架
基于元数据的治理方面,我们从数据生命周期管理,数据质量、数据安全共享、数据地图、数据百科、数据血缘这几个方面为数据治理提供更多的抓手,来保证数据资产的高质量,最后再将这些高质量的数据资产,通过服务化的方式提供给数据消费者,降低数据消费门槛。元数据分类上,我们切分了两个维度,一方面包括了元数据的范围,比如模型元数据、指标元数据、标签元数据等,尽可能的丰富,另一方面从类型上,也划分成技术元数据、业务元数据、管理元数据等。假设我们有一个电商平台,需要管理和分析每天产生的海量订单数据。
2024-06-05 11:00:00
1628
原创 数据仓库模型及其应用
数据仓库通过BDM、FDM、DIM、GDM、ADM和APP层的有机结合,实现了从数据收集、存储、转换、聚合到应用的全面数据管理。这种多层级的架构保证了数据的一致性、完整性和高效性,使企业能够充分利用数据价值,支持各层次的业务决策和分析。从中可以看出,数据仓库不仅是一个存储数据的工具,更是一个战略性的数据管理和分析平台。
2024-06-04 19:54:39
810
1
原创 深入理解 Nginx 配置文件:基础与实践
Nginx 是一个高性能的 HTTP 和反向代理服务器,以及一个 IMAP/POP3 代理服务器。由于其高稳定性、丰富的功能集、简单的配置和低资源消耗,Nginx 已经成为了现代 Web 应用架构中不可或缺的组件。在本文中,我们将详细探讨 Nginx 的配置文件,包括其结构、语法以及如何通过配置来优化服务器性能。
2024-06-04 18:45:00
657
原创 深入探究 SQL 中的 CREATE VIEW 用法及其优势
视图是一种虚拟表,其内容由 SQL 查询定义。不同于物理表,视图不在数据库中以存储数据的形式存在,而是在查询视图时动态地从一个或多个实际表中生成数据。视图可以包含所有在 SELECT 语句中可以使用的元素,比如 JOIN 操作、WHERE 子句、子查询等。
2024-06-04 14:21:33
1039
原创 维度与粒度:构建高效数据仓库的关键要素
在人工智能(AI)的世界中,大模型,如自然语言处理(NLP)和图像识别模型,已经成为推动技术进步的关键因素。这些模型通常需要大量的数据来训练,并且涉及复杂的算法。随着技术的发展,大模型分为两个主要的阵营:开源大模型和闭源大模型。在本篇博客中,我们将探讨两者的优势和局限性,以及我个人对未来发展方向的看法。
2024-06-03 10:24:09
1087
原创 开源大模型 vs 闭源大模型:未来的AI发展方向
在人工智能(AI)的世界中,大模型,如自然语言处理(NLP)和图像识别模型,已经成为推动技术进步的关键因素。这些模型通常需要大量的数据来训练,并且涉及复杂的算法。随着技术的发展,大模型分为两个主要的阵营:开源大模型和闭源大模型。在本篇博客中,我们将探讨两者的优势和局限性,以及我个人对未来发展方向的看法。
2024-05-31 15:50:47
476
原创 理解 SQL 中的 COALESCE 函数:处理 NULL 值的利器
COALESCE是一个 SQL 标准函数,它从一系列提供的参数中返回第一个非NULL值。如果所有参数都是NULLCOALESCE函数则返回NULL。其中,到是一系列被检查的表达式。
2024-05-31 14:58:41
1537
原创 为什么小表要与大表的数据进行比较和连接
通过将小表加载到每个执行Map任务的节点的内存中,可以避免在Reduce阶段传输小表的数据,从而减少网络I/O。:MapJoin(或Broadcast Join)允许在Map阶段直接处理join操作,避免了Reduce阶段的开销,从而加快了整个查询的执行时间。:由于小表已经在内存中,Map任务可以快速地对大表的每条记录执行连接操作,而不需要复杂的数据分区和排序,这简化了计算过程。:小表由于其较小的数据量,可以整个加载到内存中,这样可以提高数据处理的速度,因为内存访问速度远快于磁盘。
2024-05-31 14:01:57
404
原创 Hive中常见的文件格式
例如,对于需要高效列访问和压缩的大型数据集,列式存储格式如ORC或Parquet可能是更好的选择。:这是另一种列式存储格式,由Hadoop生态圈以外的项目开发,但已经被广泛集成。:这是一种高度优化的列式存储格式,它提供了高效的压缩和编码。ORC文件具有高效的读、写和处理大型数据集的能力,是Hive中推荐的文件格式之一。:这是Hive的默认文件格式,它是纯文本格式。:这是一种行式文件格式,它支持数据的压缩和模式演化。:这是一种基于Hadoop的二进制文件格式,它支持数据的分块和压缩。
2024-05-31 10:10:45
472
原创 浅谈GPT-4o
综上所述,GPT-4o在各个方面都展现了令人印象深刻的技术实力。从对比分析到技术能力,再到个人感受,GPT-4o都证明了它是一个值得关注的人工智能里程碑。随着人工智能技术的不断进步,我们有理由相信,GPT-4o及其后续产品将为我们的生活和工作带来更多的便利和可能性。
2024-05-30 19:40:03
524
原创 电子商务和零售行业中,两个常用的术语SKU(Stock Keeping Unit)和SPU(Standard Product Unit)之间的异同
在电子商务和零售行业中,SKU(Stock Keeping Unit)和SPU(Standard Product Unit)是两个常用的术语,它们用于描述产品的不同方面。
2024-05-30 17:03:46
549
原创 Hive中常用query--关联/聚合/去重/排序举例
在Hive中,可以使用各种查询来执行关联(JOINs)、聚合(Aggregations)、去重(Distinct)和排序(Sorting)操作。
2024-05-30 10:28:24
503
原创 你知道列存储的定义和优势以及行存储的区别?--数据仓库基本概念
列存储数据库或文件系统会将表中的每一列数据分别存储在不同的位置。例如,如果有一个表包含姓名、年龄和地址三列,列存储将分别存储所有姓名、所有年龄和所有地址,而不是将每个人的姓名、年龄和地址存储在一起。
2024-05-30 10:26:59
435
原创 表分区--数据仓库必学概念
假设我们有一个电子商务平台的订单数据库,其中包含一个巨大的订单表,记录了多年来的所有订单信息。随着时间的推移,订单表中的数据量不断增长,为了提高查询性能和数据管理效率,我们决定对订单表进行分区。
2024-05-29 19:54:28
822
原创 你懂Hive的内部表和外部表的区别吗?
Hive中的表可以分为内部表(Managed Table)和外部表(External Table),两者之间的主要区别在于数据的管理和所有权。
2024-05-29 19:49:34
429
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人