
人工智能
文章平均质量分 90
goTsHgo
这个作者很懒,什么都没留下…
展开
-
大数据和人工智能融合展望
大数据技术和人工智能(AI)的融合是科技发展的方向,其实很多年前就已经提出来并在不断前行,未来几年将会因为算力的进步和AI技术的飞速发展继续加速。原创 2025-01-21 17:23:30 · 991 阅读 · 0 评论 -
特征工程——高维组合特征的处理
当原始特征数量很大时,可能需要探索指数级的组合空间,这会带来计算复杂度和存储资源的挑战。高维组合特征的处理是特征工程的重要环节,尤其是在处理复杂数据关系时,通过构造交互特征或高阶组合特征可以提高模型性能。在高维数据中,不可能对所有特征进行盲目组合,通常需要结合领域知识或统计方法来选择重要特征进行交互。以下将从底层原理到代码实现详细解析高维组合特征的处理,尽量通俗易懂,同时全面覆盖相关技术细节。通过模型的重要性分数(如树模型的特征重要性)筛选组合特征。生成所有特征的高阶组合和交互特征。原创 2025-01-03 16:01:20 · 990 阅读 · 0 评论 -
随机游走(Random Walk)
随机游走是一种强大的工具,通过简单的随机过程揭示复杂网络的结构和特性。它的实现简单,但可以扩展到包括机器学习在内的多种复杂算法中,为理解和分析网络提供了一种直观而有效的方法。原创 2024-12-27 15:41:25 · 1583 阅读 · 0 评论 -
DeepWalk 原理详解
DeepWalk 是一种流行的图嵌入方法,用于学习图结构数据中节点的低维表示。它通过将图的节点视作序列数据,利用自然语言处理中的技术(类似于word2vec算法)来捕捉节点间的关系,可以帮助我们理解和利用图中节点的关系。这种方法在社交网络分析、推荐系统、图分类等领域非常有用。在图中,节点可以是人、地点、物品等,而边表示它们之间的关系,例如朋友关系、道路连接等。DeepWalk是通过随机游走在图中采样节点序列,并使用类似word2vec的方法学习这些序列中节点的嵌入向量。原创 2024-12-24 16:14:24 · 1311 阅读 · 0 评论 -
迁移学习 详解及应用示例
迁移学习是一种机器学习技术,其核心思想是利用在一个任务上已经学到的知识(源任务:任务已经有一个训练好的模型,然后我们将这个模型的某些部分或知识迁移到一个新的但相关的“目标任务”上。)来帮助解决另一个相关但不同的任务。这种方法在深度学习领域尤其有用,因为它可以显著减少模型训练所需的数据量和计算资源,同时提高模型在新任务上的性能。我们将在预训练的基础模型上添加自定义层,以适应我们的猫狗分类任务。这里添加一个扁平化层(Flatten)和一个密集层(Dense),最后是一个具有两个输出(猫和狗)的分类层。原创 2024-12-24 15:28:54 · 1802 阅读 · 0 评论 -
多兴趣召回:从底层原理到代码实现
在推荐系统中,用户的兴趣往往是多样化的。单一兴趣的推荐无法全面捕捉用户行为,可能导致召回效果较差。原创 2024-12-18 10:20:22 · 920 阅读 · 0 评论 -
多兴趣召回——胶囊网络的原理解析
胶囊是神经网络中的一组神经元,其输出表示不同的参数,如实体的不同属性。在多兴趣模型中,每个胶囊可以代表用户的一个兴趣维度。原创 2024-12-18 10:15:13 · 1243 阅读 · 0 评论 -
多兴趣召回(Multi-Interest Recall)原理介绍
捕捉兴趣多样性每个用户的多个兴趣点被单独建模,不再用单一向量代表整个用户。丰富召回结果不同兴趣点召回的物品可以覆盖用户的多种需求,提高推荐结果的覆盖度。动态调整兴趣向量是通过动态计算获得的,可以根据用户行为灵活变化。用户浏览了 “篮球鞋 A”、“跑鞋 B”、“智能手表 C”。多兴趣召回可能提取两个兴趣点:运动鞋(兴趣向量 1)。智能设备(兴趣向量 2)。分别召回:兴趣向量 1:召回 “跑鞋 D”、“运动鞋 E”。兴趣向量 2:召回 “智能手环 F”、“耳机 G”。原创 2024-12-13 16:26:40 · 1116 阅读 · 0 评论 -
基于物品的协同过滤(Item-CF)召回实现从零到生产
以下是逐步实现基于物品的协同过滤(Item-CF)召回的详细流程,每一步都有完整的原理解释、代码示例,确保小白也能理解并实现。构建用户与物品的交互矩阵(行为矩阵),每一行表示一个用户,每一列表示一个物品。利用衡量物品之间的相似性。相似度越高,说明物品在用户行为上越接近。原创 2024-12-09 10:57:24 · 999 阅读 · 0 评论 -
双塔模型在工业界的部署方法
双塔模型在工业界的部署需要遵循以下步骤,从训练到上线到生产环境的推理,重点在于如何让模型高效、准确地完成用户和物品的匹配任务。以下将逐步从五个方面详细说明,并附带详细的代码,易于理解和实现。以下是一个完整的实现流程,适用于工业界的推荐场景。训练双塔模型,保存用户塔和物品塔。使用物品塔对所有物品进行离线向量化,并保存为向量文件(如.npy使用用户塔实时生成用户向量,并基于物品向量进行最近邻检索。使用 FAISS(Facebook AI Similarity Search)进行高效的向量检索。原创 2024-12-06 14:47:49 · 590 阅读 · 0 评论 -
深度学习模型——双塔模型(Two-Tower Model)详解
双塔模型是一种简单而高效的语义匹配模型,通过用户塔和物品塔的独立建模,以及匹配层的相似性计算,实现了用户和物品之间的高效推荐。本文从原理到代码实现,逐步拆解了双塔模型的核心逻辑和设计思想,使其易于理解和应用。原创 2024-12-05 11:12:22 · 2190 阅读 · 0 评论 -
深度学习模型——DSSM(Deep Structured Semantic Model)详解
通过以上逐步详解,我们可以清晰理解 DSSM 的原理和实现过程,从基础到代码实现均具有完整的逻辑链条。将查询和文档分别映射到一个共同的语义空间,在这个空间中,语义相似的查询和文档具有较高的向量相似度(如余弦相似度)。DSSM(深度结构化语义模型)是一种深度学习模型,旨在学习查询和文档(或任意两个实体)之间的。传统的基于关键词匹配的方法(如 TF-IDF、BM25)难以捕捉查询和文档之间的语义关系。以下是一个完整的 DSSM 实现,用于匹配查询和文档。用查询-文档对的数据训练 DSSM 模型。原创 2024-12-05 10:47:37 · 1171 阅读 · 0 评论 -
Item-CF召回 和 Item2Vec 技术对比和代码实现
Item-CF(Item-based Collaborative Filtering)是一种协同过滤方法,其核心思想是基于用户的历史行为,寻找与用户感兴趣物品(items)相似的物品,推荐给用户。是一种基于 Word2Vec 技术思想应用于推荐系统的嵌入式方法,其核心目标是将物品嵌入到低维向量空间中,保留物品之间的语义相似性。例如,给用户推荐与其历史行为中物品最相似的物品。构造一个用户-物品交互矩阵,表示用户对物品的交互记录,如评分、点击、购买等行为。根据物品的交互记录,计算物品之间的相似度。原创 2024-11-21 14:01:24 · 920 阅读 · 0 评论 -
基于标签的用户画像
基于标签的用户画像是一种直观、灵活的用户建模方法。它通过标签化描述用户的兴趣和行为特征,易于扩展并且适合各种个性化推荐和广告投放场景。构建高质量的标签体系,合理设计标签生成与更新机制,可以大幅提升推荐系统的精准性和用户体验。同时,也需要关注标签的稀疏性和语义理解问题,以便更好地优化基于标签的用户画像。原创 2024-11-14 11:58:51 · 1241 阅读 · 0 评论 -
用户画像与排序特征的关系 详细解析
用户画像是通过对用户行为数据、基本信息、偏好兴趣等数据的挖掘,构建一个用户的数字化档案。静态特征年龄、性别、职业、地域、设备类型等。用户注册信息和历史填写的兴趣偏好。动态特征用户的兴趣偏好(短期兴趣 vs. 长期兴趣)。用户的实时行为,如最近的浏览或搜索内容。行为特征活跃时间段、常用设备、访问频率、停留时长等。用户在不同类别内容中的消费习惯(如电影、购物、新闻等)。用户画像为排序特征提供了丰富的输入信息,而排序特征则通过组合用户画像、内容画像和上下文信息来。原创 2024-11-14 10:51:40 · 788 阅读 · 0 评论 -
用户画像与内容画像的关系:从底层原理和源代码层面的全面解析
用户画像和内容画像在底层逻辑上是相互依赖的,它们通过对特征的提取、建模和对齐,完成从数据到推荐的闭环流程。在技术实现上,两者需要在数据存储、特征工程、模型训练和在线服务等多个环节紧密配合,从而实现精准、高效的用户与内容匹配。原创 2024-11-14 10:45:04 · 1224 阅读 · 0 评论 -
自然语言处理(NLP)的开源生态系统:Hugging Face 原理和使用
可以通过TrainerAPI 进行快速微调。# 数据集(使用样例)# 数据处理# 定义 Trainer# 开始训练底层实现定义训练的超参数(如批量大小、学习率、训练轮数)。Trainer封装了 PyTorch 的训练逻辑,包括分布式训练支持、评估、模型保存等。数据集通过datasets进行预处理和动态加载,使用.map高效完成数据管道。模块化设计:适合快速开发和自定义。高效分词和数据处理:支持大规模文本的高效处理。强大的模型支持:涵盖了大部分主流 Transformer 架构。原创 2024-11-14 09:14:07 · 1757 阅读 · 0 评论 -
特征值分解原理及实战
特征值分解(Eigenvalue Decomposition)是线性代数中的一种重要技术,用于分析矩阵的内在属性。这种分解方法主要适用于方阵(即行数和列数相等的矩阵),用于将矩阵分解为其特征向量和特征值。原创 2024-11-11 10:21:36 · 1397 阅读 · 0 评论 -
逻辑回归处理非线性关系与支持向量机的性能对比
逻辑回归:通过特征变换,可以让逻辑回归在一定程度上适应非线性关系。但由于需要显式地进行特征扩展,维度较高时会增加计算复杂度。支持向量机(SVM):核 SVM 是更直接处理非线性问题的选择,核技巧允许模型在隐空间中进行分类,性能更佳。SVM 在复杂非线性数据上通常表现更好,但在数据量较大时会受到计算瓶颈的限制。总体而言,如果面对复杂的非线性关系,且数据集不大,可以优先选择 SVM;若数据规模较大或需要模型的解释性,则可以考虑使用特征变换后的逻辑回归模型。原创 2024-11-07 13:46:22 · 1111 阅读 · 0 评论 -
Multi-head Attention机制简介和使用示例
Multi-head Attention 在 NLP 和 CV 中广泛使用,其核心是通过多头机制并行地计算不同子空间中的注意力,从而使模型能够学习输入序列的全局依赖关系。在生产环境中,我们可以通过 PyTorch 实现和保存模型,将其部署为推理服务。d_%7Bk%7D。原创 2024-11-06 08:22:15 · 1562 阅读 · 1 评论 -
回归模型算法——线性回归 详解
线性回归作为回归分析中的基础模型,通过最小化均方误差来拟合数据,其实现方法包括最小二乘法和梯度下降。线性回归简单易懂,适合小规模数据集,但在特征间存在多重共线性或需要处理非线性关系时需要使用其他变体,如岭回归、Lasso 回归等。...+原创 2024-11-01 17:36:57 · 4452 阅读 · 0 评论 -
分类算法——LightGBM 详解
梯度提升树(Gradient Boosting Decision Tree, GBDT)是一种基于加法模型和前向分步算法的提升方法。GBDT 通过迭代地构建决策树来优化目标函数,其中每一棵树都拟合上一个模型的残差或负梯度。GBDT 在分类问题中通常使用交叉熵作为目标函数,而在回归问题中使用平方误差损失。LightGBM 通过多项优化使得 GBDT 在性能和效率上有了大幅提升。其基于叶节点的生长策略和直方图算法的创新设计,显著提高了模型的训练速度和精度。原创 2024-10-31 12:29:54 · 3775 阅读 · 0 评论 -
分类算法中 XGBoost和LightGBM 的区别简介
总的来说,虽然XGBoost和LightGBM都是基于梯度提升的方法,但它们在实现和性能优化上有显著的差异,适合不同的使用场景。XGBoost和LightGBM都是常用的梯度提升决策树(GBDT)算法,但它们有一些不同之处。原创 2024-10-31 12:15:24 · 585 阅读 · 0 评论 -
分类算法——XGBoost 详解
XGBoost 是一种高效的梯度提升算法,结合了多种优化策略来提高计算速度和模型性能。在底层实现上,XGBoost 通过二阶近似、正则化、并行化等技术来提升模型效果,同时具有灵活的参数和支持多种任务的能力。原创 2024-10-31 12:10:03 · 2474 阅读 · 0 评论 -
分类算法——支持向量机 详解
SVM 是一种强大的分类算法,适用于高维和小样本数据。其主要思想是找到一个最优超平面,最大化不同类别数据的间隔。通过软间隔和核函数,SVM 可以处理线性不可分数据。优化算法主要使用 SMO 或对偶问题求解。虽然 SVM 在分类效果上表现出色,但训练复杂度较高,对参数敏感。bwbC。原创 2024-10-31 11:19:37 · 1377 阅读 · 0 评论 -
分类算法——决策树 详解
决策树是一种强大的分类和回归模型,通过树形结构进行决策。其构建过程包括特征选择、数据划分、剪枝等步骤,易于理解和实现,但需注意过拟合和模型稳定性的问题。在实际应用中,可以根据具体场景选择合适的决策树算法和参数设置。原创 2024-10-31 10:51:16 · 2928 阅读 · 0 评论 -
分类算法——逻辑回归 详解
逻辑回归是一种强大而有效的分类算法,能够通过概率的方式对输入数据进行建模。其底层原理基于线性模型和逻辑函数的组合,优化过程使用梯度下降等方法来调整模型参数。尽管有其局限性,但在许多实际应用中依然表现优越,尤其在特征数量较少且具有线性可分性的情况下。原创 2024-10-31 10:30:00 · 2752 阅读 · 2 评论 -
用户画像 简介
用户画像是一个用于描述目标用户群体的工具,帮助企业准确地理解用户的需求和行为,从而优化产品设计、营销策略、用户体验等多个方面。通过系统地创建用户画像,企业可以更好地定位目标市场,实现更有效的用户参与和业务增长。原创 2024-09-23 14:44:56 · 930 阅读 · 0 评论