自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(780)
  • 收藏
  • 关注

原创 AI相关的一些网站收藏(持续更新中)

持续收藏更新各类AI大模型,平台,框架,应用的网址。

2025-03-19 08:35:10 454 1

原创 【人工智能】人工智能的数学基础

人工智能(AI)的学习路线通常分为几个阶段,涉及数学基础、编程技能、机器学习、深度学习以及相关工具的掌握。本文是对数学基础部分的整理和总结,目前不断学习整理更新中.....

2024-11-12 10:43:43 511 1

原创 【机器学习】机器学习中用到的高等数学知识

机器学习是一个跨学科领域,涉及多种高等数学知识。掌握这些高等数学知识可以帮助理解机器学习算法的工作原理和实现过程。在实际应用中,建议结合编程实践,如使用 Python 中的 NumPy 和 SciPy 库进行线性代数和数值计算,使用 scikit-learn 进行统计分析和机器学习建模。通过理论与实践相结合,能够更深入地理解机器学习的核心概念和应用。

2024-11-07 09:38:28 982

原创 人工智能学习路线

人工智能学习的过程是循序渐进的,先打好数学和编程基础,然后逐步深入机器学习和深度学习,最后通过实际项目和工具框架的使用巩固知识。

2024-10-30 14:08:07 1217 1

原创 在 React 项目中使用 Ky 与 TanStack Query 构建现代化数据请求层

文章介绍了React19+Vite+TypeScript项目中采用Ky+TanStackQuery的现代请求处理方案。Ky作为Fetch的轻量封装(7KB),提供简洁API、自动JSON解析和错误处理;TanStackQuery则管理请求状态、缓存和自动刷新。通过创建自定义Ky实例处理统一配置,结合QueryClient实现全局错误处理和Loading状态。相比Axios,该方案更轻量现代,适用于纯前端SPA,提供清晰的API层+数据层架构,支持TypeScript且扩展性强。

2025-11-12 13:36:53 975

原创 Windows 11 专业版 安装与配置 Docker Desktop 保姆级手册(包成功永久免关注免VIP)

本文详细介绍了在Windows 11专业版/企业版上安装Docker Desktop并运行第一个容器的完整流程。内容包括系统环境检查(虚拟化支持验证)、WSL2安装、Docker Desktop安装与配置(镜像源加速、资源分配)、运行Nginx容器测试等核心步骤,并提供了常见问题解决方法。文章还包含了进阶优化建议和Docker Compose验证方法,最后给出了卸载重装指导。通过10个清晰步骤,帮助用户快速搭建Windows环境下的Docker开发平台,为后续的容器化开发和部署打下基础。

2025-11-12 09:46:50 1287

原创 全面理解 Turbo:让前端构建快到飞起的现代加速器

Turbo是Vercel推出的高性能构建系统,专为解决大型前端项目构建慢的痛点。它通过智能缓存、并行执行和任务依赖分析,显著提升Monorepo项目的构建和测试速度。Turbo的核心特性包括增量构建(只重执行受影响任务)、本地/远程缓存共享、零侵入整合主流工具链。其工作原理基于任务图分析和哈希比对,可将二次构建时间从40秒降至1.5秒。通过turbo.json配置文件定义任务流水线,配合远程缓存功能实现团队协作加速。相比Nx/Lerna等工具,Turbo更专注于极速任务执行,适合现代前端工程化项目。

2025-11-07 11:15:44 1171

原创 全面理解 Corepack:Node.js 的包管理新时代

Corepack是Node.js内置的包管理工具代理层,从v16.9开始引入,用于解决前端开发中包管理器版本不一致的问题。它通过拦截命令、自动下载指定版本并代理执行,确保项目使用统一版本的npm/Yarn/pnpm。开发者只需在package.json中声明packageManager:npm@9.6.0等配置,执行corepack enable即可实现跨环境一致性。

2025-11-07 09:39:16 947

原创 【前端】从零开始搭建现代前端框架:React 19、Vite、Tailwind CSS、ShadCN UI 完整实战教程-第1章:项目概述与技术栈介绍

本文介绍了一个从零搭建现代前端框架的实战教程,主要面向希望掌握最新前端技术的开发者。教程采用React19、Vite、TailwindCSS等主流技术栈,目标是构建一个功能完备、可扩展的前端框架。通过逐步引导,读者将学会:配置React19开发高效UI、使用Vite加速构建、利用TailwindCSS实现响应式设计、集成TanStackQuery管理数据、实现多语言支持等功能。教程详细介绍了12项核心技术及其优势,包括React19的新特性、Vite的快速构建、TailwindCSS的实用工具类等。最后还列

2025-11-04 09:29:34 1776 3

原创 【第七章:时间序列模型】3.时间序列实战:使用时序模型进行股票预测实战

本文详细介绍了使用时间序列模型进行股票预测的完整工程流程。从数据获取(爬虫/API)到特征工程、多模型训练(ARIMA/XGBoost/LSTM/N-BEATS),再到评估指标(RMSE/MAE/MAPE)、策略回测和工程化建议。提供了可复现的Python代码模板,包括数据预处理、技术指标计算、滑动窗口构建等核心模块。特别强调模型比较方法(离线指标+回测)和工程化注意事项(数据一致性、风险控制等)。对于不同场景(短期择时/中长期预测)给出了模型选择建议,并指出深度模型在大样本下可能具有优势。整体流程注重实操

2025-11-04 08:18:13 926

原创 【第七章:时间序列模型】2.时间序列统计模型与神经网络模型-(4)时间序列大模型: 谷歌TimesFM模型

摘要: Google的TimesFM是一个基于Transformer的时间序列预测基础模型,通过预训练海量数据(1000亿时间点)实现多场景零样本或少样本预测。其核心采用Decoder-Only Transformer架构,将时间序列分段为Token处理,支持可变历史长度和预测范围。优势在于通用性强、长依赖捕捉能力突出,无需重新训练即可适配零售、交通等场景,零样本表现接近监督模型。虽在单变量预测中高效,但对多变量或领域专用任务存在局限,且资源消耗较高。该模型通过BigQuery ML或Python库(如ti

2025-11-03 08:24:56 1015

原创 【第七章:时间序列模型】2.时间序列统计模型与神经网络模型-(3)神经网络预测时间序列模型: 从RNN,LSTM到nbeats模型

本文系统介绍了神经网络在时间序列预测中的演进历程,从基础的RNN到改进的LSTM,再到创新性的N-BEATS模型。重点分析了三种模型的原理、结构和优缺点:RNN通过循环结构捕捉时序依赖但存在梯度问题;LSTM利用门控机制解决长期依赖;N-BEATS采用前馈网络实现并行化和可解释性。文章还提供了PyTorch实现示例,并指出模型发展正朝着非循环、可解释和全局建模方向演进,为工业应用提供了LSTM、N-BEATS等不同方案选择。

2025-11-03 08:19:48 810

原创 【第七章:时间序列模型】2.时间序列统计模型与神经网络模型-(1)简单序列模型: moving average, linear model and exponential smoothing介绍及代

本文介绍了三种基础时间序列模型:移动平均(MA)通过窗口均值平滑噪声,适合短期预测;线性模型拟合时间与观测值的线性关系,适用于长期趋势分析;指数平滑采用递减加权方法,能快速响应新数据并支持趋势/季节性扩展。这三种模型虽简单,却构成了现代时序分析的基石,在计算资源有限、低延迟场景下仍具优势。文章通过原理说明和代码示例对比了各模型特点,建议根据数据特性选择适当方法,并将其作为基线模型与复杂算法进行性能比较。

2025-11-02 09:15:00 817

原创 【第七章:时间序列模型】2.时间序列统计模型与神经网络模型-(2)适用广泛的时间序列模型:Arima模型

优点缺点理论成熟,可解释性强难捕捉复杂非线性关系适合小数据量预测无法自动建模季节性,需要 SARIMA 扩展模型稳定、参数可控对平稳性要求高,预处理复杂。

2025-11-02 09:15:00 1058

原创 【第七章:时间序列模型】1.时间序列基础-(5)时间序列相关特征

第七章第五节重点介绍了时间序列相关特征分析。时间序列特征可分为统计特征(均值、标准差等)、趋势与季节性特征(趋势斜率、季节强度等)、波动性与平稳性特征(方差比、ADF检验等)、相关性与自相关特征(自相关系数、偏自相关等)以及频域特征(主导频率、频谱熵等)。这些特征有助于理解数据的周期性、趋势性和波动性,为ARIMA、LSTM等模型提供输入依据。文中还演示了使用Python提取时序特征的实践方法,包括统计特征计算、趋势分解和平稳性检验等。

2025-11-01 09:15:00 719

原创 【第七章:时间序列模型】1.时间序列基础-(4)时间序列的趋势, 季节性及其他: 分解时间序列

时间序列分解是将复杂数据拆解为趋势、季节性和残差三部分的分析方法。趋势反映长期方向,季节性体现周期波动,残差代表随机噪声。通过加法或乘法模型实现分解,可使用Python的statsmodels库进行实操分析。该技术广泛应用于趋势识别、季节性调整和异常检测,为预测模型构建奠定基础。掌握分解方法有助于从混沌数据中提取结构化信息,为业务决策提供科学依据。

2025-11-01 09:00:00 1156

原创 【第七章:时间序列模型】1.时间序列基础-(3)时间序列的相关性:哪些股票是相关的?

本文探讨了时间序列相关性在金融领域的应用,重点介绍了协方差、皮尔逊相关系数的计算方法,以及如何分析股票间的相关性。通过实际案例演示了股票收益率相关性的计算、可视化热力图绘制、时间滞后相关性检测、滚动相关性分析和相关网络构建等技术。研究发现同一行业股票通常高度正相关,不同行业或避险资产则呈现低相关或负相关。这些分析方法不仅适用于金融投资组合构建和风险管理,也可应用于其他领域发现变量间的联动规律。

2025-10-31 16:49:50 761

原创 【第七章:时间序列模型】1.时间序列基础-(2)时间序列的可视化:时序图、散点图、季节图

本章介绍时间序列可视化方法,包括时序图、散点图和季节图,以帮助理解数据的时间特征。时序图通过折线展示趋势、周期和异常点;滞后散点图用于检测自相关性;季节图比较周期性模式。文章还介绍了季节性分解图和复合视图,强调可视化在建模前的关键作用。建议通过多种图表结合分析,为后续模型选择提供依据。

2025-10-31 16:42:26 676

原创 【第七章:时间序列模型】1.时间序列基础-(1)什么是时间序列及应用场景

本文介绍了时间序列的基础概念及应用。时间序列是按时间顺序排列的数据点,具有顺序性、依赖性和趋势性等特点。核心问题包括建模、预测、异常检测和因果分析。时间序列可分类为连续/离散、平稳/非平稳、单/多变量等。主要分析方法包括统计模型、机器学习和深度学习方法。在金融、工业、医疗、零售、交通和能源等领域都有广泛应用,是理解现实世界"变化"的重要工具。掌握时间序列分析能帮助预测未来并洞察数据规律。

2025-10-30 12:30:11 866

原创 【第六章:项目实战之推荐/广告系统】3.精排算法-(5)项目实战:基于天池竞赛数据实现完整推荐系统

本文详细介绍了基于天池竞赛数据构建完整推荐系统的工程化流程。从数据准备、特征工程到召回、粗排、精排、重排各环节的实现方法,重点强调工程实践而非单点调优。文章提供了清晰的目录结构,并使用示例代码展示了关键实现步骤,包括Item2Vec+Faiss召回、双塔粗排、PLE精排和MMR/DPP重排等技术方案。同时给出了评估指标、模型部署建议和线上监控方案,最后总结了推荐系统工程的要点,强调端到端流程搭建和长期价值的重要性。

2025-10-30 12:20:38 896

原创 【第六章:项目实战之推荐/广告系统】3.精排算法-(4)重排算法:MMR、DPP原理精讲

推荐系统重排算法部分讲解了MMR和DPP两种核心算法。MMR(最大边际相关性)为启发式算法,通过平衡相关性和多样性来优化列表;DPP(确定性点过程)则是基于概率的模型,通过核矩阵的行列式计算实现全局多样性优化。两种算法各有优劣:MMR计算简单但参数调优困难,DPP理论完备但计算复杂度高。实践中常将二者结合使用,先通过MMR快速去重,再用DPP做精细优化。重排算法作为推荐系统最后一环,能显著提升内容多样性、平衡用户兴趣并提高用户满意度,广泛应用于电商、视频和新闻推荐等领域。

2025-10-29 14:06:02 1618

原创 【第六章:项目实战之推荐/广告系统】3.精排算法-(3)精排模块多目标融合:从线性融合到Bayes方程融合原理

本文探讨了推荐/广告系统精排阶段的多目标融合算法,从线性到Bayes方程的理论与方法。首先介绍了精排阶段面临的多个业务目标(如CTR、CVR、GMV等)及其相互制约关系。随后详细解析了三种融合方式:线性融合(简单加权)、非线性融合(乘积或神经网络)和基于概率论的Bayes融合(最优解)。针对工程应用,分析了各方法的优缺点及适用场景,如电商广告常用的CTR×CVR乘积融合。最后展望了强化学习等智能融合的未来趋势,指出多目标融合正从经验式转向数据驱动,最终实现业务收益最大化。核心在于让各目标概率合理共存,在点击

2025-10-29 13:56:42 796

原创 【第六章:项目实战之推荐/广告系统】3.精排算法-(2)精排算法模型精讲: DNN、deepFM、ESMM、PLE、MMOE算法精讲与实现- 精排工程实战

本文详细介绍了推荐/广告系统中精排算法的工程实现全流程,重点讲解了关键环节和注意事项。主要内容包括:特征工程的核心要点(ID映射、特征处理一致性等);训练实践技巧(参数调整、多卡训练等);以PyTorch实现的PLE多任务模型示例代码;模型压缩技术(蒸馏、量化);模型部署方案(导出格式、Serving选择);线上监控体系和A/B测试设计。文章还总结了常见工程问题(特征不一致、新ID处理等)和解决方案,强调从离线训练到上线部署的全流程一致性保障,为推荐系统精排模块的工程落地提供了完整指导框架。

2025-10-28 14:01:42 929

原创 【第六章:项目实战之推荐/广告系统】3.精排算法-(2)精排算法模型精讲: DNN、deepFM、ESMM、PLE、MMOE算法精讲与实现- PLE 模型

PLE(ProgressiveLayeredExtraction)是针对多任务推荐系统的工业级优化模型,解决了MMOE存在的任务污染和共享比例不可控问题。其核心思想是分层共享+专家分组,通过共享专家(通用特征)和任务私有专家(专属特征)分离,结合多层Gate逐步筛选信息,实现可控共享路径。相比MMOE,PLE具有更强的稳定性、防污染能力和扩展性,已成为主流大厂(如TikTok、阿里)广告系统的首选架构,训练成本与MMOE相近但效果更优。

2025-10-28 13:59:15 885

原创 【第六章:项目实战之推荐/广告系统】3.精排算法-(2)精排算法模型精讲: DNN、deepFM、ESMM、PLE、MMOE算法精讲与实现- MMoE 模型

MMoE模型解决了传统多任务学习中的负迁移和参数量爆炸问题,通过多专家共享特征表达和任务门控动态选择知识,实现任务间知识共享与干扰隔离。其核心结构包括专家网络、门控机制和任务塔,PyTorch实现简洁高效。工业实践表明,MMoE能显著提升多任务性能,缓解任务干扰,成为精排阶段多任务建模的主流方案。

2025-10-27 11:58:37 537

原创 【第六章:项目实战之推荐/广告系统】3.精排算法-(2)精排算法模型精讲: DNN、deepFM、ESMM、PLE、MMOE算法精讲与实现- ESMM 模型

本文介绍了推荐系统中的ESMM模型,该模型通过多任务学习解决CVR预测中的样本稀疏和选择偏差问题。ESMM利用CTR和CTCVR两个子任务协同建模,间接计算CVR概率,避免了直接预测CVR带来的数据不足问题。模型采用概率关系p(CVR)=p(CTCVR)/p(CTR)进行推导,并通过联合损失函数优化。文章提供了PyTorch实现代码,并分析了ESMM的优缺点,指出其适用于转化目标建模场景。ESMM通过概率建模的创新方式,有效提升了CVR预测的准确性,是工业界的重要突破。

2025-10-27 11:55:31 821

原创 【第六章:项目实战之推荐/广告系统】3.精排算法-(2)精排算法模型精讲: DNN、deepFM、ESMM、PLE、MMOE算法精讲与实现- DeepFM 模型

本文介绍了DeepFM模型在推荐/广告系统精排算法中的应用。该模型结合了FM和DNN的优势,既能显式建模低阶特征交互(如用户性别×商品品类等常见交叉特征),又能通过DNN捕捉高阶非线性关系。文章详细解析了DeepFM的三部分结构(FM、Embedding、DNN),对比了其与纯DNN模型的差异,并提供了PyTorch实现代码。作为工业界成熟的CTR/CVR精排基础模型,DeepFM具有端到端训练、效果稳健等优点,但也存在特征过多时DNN维度膨胀的问题,适用于推荐/广告/信息流等多种场景。

2025-10-26 10:35:31 399

原创 【第六章:项目实战之推荐/广告系统】3.精排算法-(2)精排算法模型精讲: DNN、deepFM、ESMM、PLE、MMOE算法精讲与实现- DNN 精排模型

本文讲解了推荐系统中精排算法的DNN模型实现。精排阶段需要对候选物品进行精准打分预测用户行为(如CTR/CVR),DNN凭借非线性表达能力成为基础骨架。文章详细介绍了DNN精排模型的三类输入特征(稀疏特征、数值特征、交叉特征)及其处理方式,并提供了PyTorch和TensorFlow两种实现版本。DNN模型结构简单、训练稳定,适合作为工业场景的baseline,但缺乏显式特征交互能力。后续将对比FM/DeepFM等更复杂的模型。

2025-10-26 10:29:43 510

原创 PlantUML 入门与实战指南

PlantUML是一款基于文本的开源UML建模工具,通过编写简单的文本描述即可自动生成各类UML图(包括类图、时序图、用例图等)。相比传统拖拽式工具,它具有文本化、易版本控制、支持多种导出格式等优势。文章详细介绍了PlantUML的安装方式(在线/本地/IDE集成)、基础语法(类图、时序图、活动图)、高级特性(样式定制、组件化)以及实际应用场景(架构设计、接口文档等)。作为一种高效、可协作的建模工具,PlantUML能显著提升软件开发团队的文档编写效率。

2025-10-25 11:29:16 1012

原创 【第六章:项目实战之推荐/广告系统】3.精排算法-(1)精排用来干什么? “我要细细的筛“

精排是推荐系统的核心决策环节,负责对粗筛后的优质内容进行最优排序。其核心目标是在CTR、CVR等短期指标和留存率、多样性等长期目标之间取得平衡,实现收益最大化。与粗排不同,精排采用更复杂的模型(如Transformer、强化学习等),处理更丰富的行为序列特征,通过Pairwise/Listwise排序学习进行精细决策。精排的本质是价值平衡而非简单预测,直接决定推荐质量和商业收益,是推荐系统的大脑级模型。

2025-10-25 10:41:16 593

原创 【第六章:项目实战之推荐/广告系统】2.粗排算法-(4)粗排算法模型多目标算法(Multi Task Learning)及目标融合

摘要:本文深入探讨推荐/广告系统中粗排算法的多目标建模问题。文章指出粗排阶段必须采用多目标模型(如CTR、CVR、GMV等)以避免单一目标带来的长期负面效应,对比分析了HardSharing、ESMM、MMoE和PLE四种模型结构的优缺点,推荐MMoE和PLE作为首选方案。针对多任务学习中的梯度冲突、数据分布差异和目标博弈三大难点,提出了解决方案。重点介绍了目标融合策略,包括线性加权、动态加权和自适应融合三种方式,并给出了基于TensorFlow2.x的MMoE实现代码。最后强调粗排的核心在于通过多任务学习

2025-10-24 13:11:56 991

原创 【第六章:项目实战之推荐/广告系统】2.粗排算法-(3)理解粗排模型之在线部分:在线架构及对双塔的应用

本文主要探讨推荐系统中粗排模型的在线实现架构与关键技术。文章指出粗排模型从训练到上线面临三大挑战:低延迟(≤10ms)、实时性(用户向量即时更新)和可扩展性(支持亿级物料)。在线架构采用双塔模型,其中用户塔实时生成向量,项目塔离线处理,通过ANN向量检索实现高效召回。重点介绍了在线流程实现(伪代码)、ANN选型建议(Faiss/Milvus/HNSW等)和版本更新策略(A/B测试、双索引切换等)。

2025-10-24 09:44:11 987

原创 【权限管理】Keycloak 企业级实战指南

《Keycloak企业级实战指南》摘要 Keycloak是企业级开源IAM解决方案,提供统一身份认证、授权管理和SSO功能。本书系统讲解Keycloak的核心架构、协议标准和实战应用。 主要内容包括: 核心概念:Realm、Client、User、Role设计 认证协议:OAuth2/OIDC/SAML流程解析 快速部署:Docker启动与前后端接入示例 企业功能:MFA、LDAP同步、社交登录实现 微服务集成:网关统一鉴权与Token传递策略 高可用方案:集群部署、缓存优化与性能调优 高级扩展:SPI机制

2025-10-23 09:22:07 1870

原创 【第六章:项目实战之推荐/广告系统】2.粗排算法-(2)理解粗排模型之离线部分:双塔模型结构精讲及实现

本文系统介绍了推荐系统中粗排阶段的双塔模型。首先阐述了粗排在推荐流程中的位置和作用,指出其核心目标是在低延迟下筛选相关内容。双塔模型通过将用户和物料分别编码为向量并计算相似度来满足这一需求,具有结构简单、高效的特点。文章详细解析了双塔模型的结构、训练样本构造、损失函数设计,并提供了可运行的PyTorch实现代码。最后说明了双塔模型与ANN检索的衔接流程,对比了其与DSSM和精排模型的差异,强调双塔模型是粗排阶段的最佳选择。

2025-10-23 08:42:21 697

原创 【第六章:项目实战之推荐/广告系统】2.粗排算法-(1)粗排用来干什么?“我大体筛一下“

摘要:粗排算法是推荐系统中的关键环节,位于召回和精排之间。其作用是在保证系统性能的前提下,将召回阶段获取的数千候选(如Top2000)高效筛选至数百(Top200-500),为精排减轻负担。粗排模型需兼顾速度与效果,常用LR、GBDT或简化DNN等轻量模型,特征选择以轻量级为主。核心指标关注排序质量(AUC)、命中率(Recall@K)及性能(延迟、QPS)。粗排是推荐链路中不可替代的"分水岭",平衡了召回覆盖率和精排精准度,确保系统整体高效运行。

2025-10-22 12:18:22 494

原创 【第六章:项目实战之推荐/广告系统】1.推荐系统基础与召回算法-(7)召回算法之u2u2i: Graph Embedding(Node2Vec、DeepWalk、GraphSAGE)算法

本节系统讲解了推荐系统中基于图嵌入(Graph Embedding)的召回算法,重点比较了DeepWalk、Node2Vec和GraphSAGE三种技术。Graph Embedding通过将用户-物品交互关系建模为图结构,能有效挖掘潜在关联关系。DeepWalk采用随机游走+Word2Vec实现简单i2i召回;Node2Vec通过p/q参数控制游走策略,平衡结构相似与局部相似;GraphSAGE通过邻居特征聚合支持新节点冷启动,适合工业级应用。

2025-10-22 12:13:49 1033

原创 【第六章:项目实战之推荐/广告系统】1.推荐系统基础与召回算法-(6)召回算法之u2i: FM、deepFM、召回双塔原理精讲与实战

本章介绍了推荐系统中u2i召回算法的核心原理与实战应用。首先对比了i2i和u2i的区别,指出u2i的核心在于构建用户embedding并匹配物品embedding。重点讲解了三种模型:FM(特征交叉)、DeepFM(增强特征建模)和双塔模型(工业主流)。双塔模型通过将用户和物品映射到同一向量空间,实现高效向量检索。最后提供了完整的双塔模型代码实现,采用对比损失训练。总结指出:i2i侧重相似性,u2i侧重兴趣建模,双塔模型已成为工业标准。

2025-10-20 10:30:40 944

原创 【第六章:项目实战之推荐/广告系统】1.推荐系统基础与召回算法-(5)召回算法之i2i: word2vec、item2vec、swing算法原理精讲与实战

本文介绍了推荐系统中基于物品相似度的i2i召回算法,重点讲解了Word2Vec/Item2Vec和Swing两种核心方法。Item2Vec将用户行为序列类比自然语言处理中的句子,通过训练获得物品的向量表示来计算相似度。Swing算法则通过计算物品被共同消费的频率来评估相似性,特别适合电商场景。文章还对比了三种i2i算法的优缺点:Item2Vec适用于序列数据,Swing对抗热门物品效果好但计算量大,i2iCF简单但易受热门干扰。最后指出不同场景的选型建议:Feed流推荐用Item2Vec,电商用Swing,

2025-10-20 10:25:17 684

原创 【第六章:项目实战之推荐/广告系统】1.推荐系统基础与召回算法-(4)召回用来干什么?“从茫茫人海中找到你“

推荐系统中的召回阶段是从海量内容中快速筛选可能感兴趣候选集的关键步骤。它解决了信息过载和个性化需求两大核心问题,通过内容匹配、协同过滤或深度学习等方法,从百万级内容中缩减到几百至几千条候选,大幅提升后续排序效率。召回如同"从人海中找到你",先广撒网捕获潜在兴趣,再精挑细选最优推荐,是平衡覆盖率与计算成本的重要环节。

2025-10-19 09:15:00 459

原创 【第六章:项目实战之推荐/广告系统】1.推荐系统基础与召回算法-(3)推荐数据基础准备

本文介绍了推荐系统中基础数据准备的关键环节。推荐系统依赖四类核心数据:用户行为数据、物品特征数据、用户特征数据和上下文数据。数据准备流程包括四个步骤:数据采集(从日志系统、数据库等来源获取)、数据清洗(处理异常值和缺失值)、数据构建(形成用户-物品交互矩阵)和特征工程(提取有效特征)。文章还通过Python示例展示了如何将原始日志转换为用户-物品评分矩阵。高质量的推荐系统构建必须以系统化的数据准备为基础,特别是要重视用户行为数据的处理和特征提取工作。

2025-10-19 09:00:00 1090

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除