- 博客(62)
- 收藏
- 关注
原创 《用户画像-方法论与工程化解决方案》读书笔记-第6章 作业流程调度
本文对比了传统crontab任务调度系统的局限性与AirFlow工作流平台的优势,指出AirFlow在任务依赖管理、执行监控、错误通知等方面的改进。同时提供数据异常排查指南,包含常见原因分析。
2025-07-16 00:18:35
296
原创 《用户画像-方法论与工程化解决方案》读书笔记-第5章 开发性能调优
摘要:本文介绍了大数据处理中的数据倾斜问题及其解决方案。数据倾斜表现为任务卡在最后阶段,主要由某些节点计算量过大导致。解决方案包括过滤倾斜数据和引入随机数分key聚合。此外,文章还探讨了小文件合并、中间数据缓存的优化方法,以及不同持久化存储级别的选择。最后作者提供了个人简介和联系方式,表示可提供算法相关技术辅导和面试指导服务。全文结合实例详细讲解了大数据处理中的常见问题及优化策略。
2025-07-16 00:09:54
563
原创 《用户画像-方法论与工程化解决方案》读书笔记-第3章 标签数据存储
本文系统介绍了构建用户画像数据仓库的技术方案,重点对比了Hive、MySQL、HBase和Elasticsearch等存储技术的应用场景。Hive适合批量处理标签表,MySQL存储元数据和监控数据,HBase支持实时查询,Elasticsearch实现高效检索。文章详细阐述了各技术的架构特点、交互方式及在ID-Mapping、二级索引构建等场景中的实践方法,并提供了Hive到MySQL的数据迁移方案。全文为构建高效用户画像系统提供了全面的技术参考,涵盖离线批处理和实时查询等不同需求场景下的存储选型建议。
2025-07-15 03:30:00
937
原创 《用户画像-方法论与工程化解决方案》读书笔记-第4章 标签数据开发
本文介绍了用户标签体系的开发方法,包括统计类标签(如近30日购买行为)、规则类标签(如用户价值RFM模型、活跃度标签)和挖掘类标签(如文本分类)的实现方案。重点阐述了活跃度标签的流失周期判定方法(回访率曲线和访问间隔统计),以及用户特征库的动态权重计算模型(结合行为类型、时间衰减、行为次数和TF-IDF)。开发技术涉及SparkSQL、Spark Streaming、文本挖掘算法(TF-IDF、朴素贝叶斯)等,并提供了数据服务层的典型应用场景。全文系统性地讲解了用户标签从设计到落地的完整方法论。
2025-07-15 03:30:00
971
原创 《用户画像-方法论与工程化解决方案》读书笔记-第2章 数据指标体系
标签体系按用户维度可分为人口属性(如年龄、性别)、行为属性、消费属性和风控属性等。应用场景不同,标签类型(统计类、规则类、挖掘类)和命名方式(如C代表cookieid、U代表userid)需灵活调整。一级归类如ATTRIBUTE(属性标签)有助于结构化分类,确保标签清晰可管理。
2025-07-14 00:26:42
138
原创 《用户画像-方法论与工程化解决方案》读书笔记-第1章 用户画像基础
用户画像通过多维度数据(社会属性、消费习惯等)标签化刻画用户特征,包含统计类、规则类、挖掘类三类标签。系统开发需经历数据架构设计、表结构优化(全量/增量表、Hive分区查询优化)等流程,并通过业务应用持续迭代。实际应用中,画像数据能有效提升流量转化与商业价值。
2025-07-14 00:23:34
485
原创 《用户画像-方法论与工程化解决方案》读书笔记-第0章 整体介绍
作者结合一线互联网大厂算法研发经验,针对企业级用户画像构建这一稀缺领域,系统梳理了赵宏田《用户画像-方法论与工程化解决方案》的核心内容。本书以实用性和全面性著称,涵盖从理论框架到工程落地的完整知识体系。笔记通过结构化提炼,帮助读者快速掌握画像建模、数据挖掘等关键技术要点,尤其适合推荐系统、NLP等领域从业者参考。
2025-07-14 00:17:53
255
原创 深度学习框架(篇十四)-PyTorch-高阶API
本文介绍了PyTorch高阶API的核心内容:1)模型构建的三种方法(继承nn.Module、使用nn.Sequential及结合模型容器);2)模型训练的三种方式(脚本风格、函数风格和torchkeras.Model类);3)GPU加速训练(单GPU和多GPU并行)。文章强调继承nn.Module是最推荐的模型构建方法,并详细说明了多GPU训练的实现机制。最后作者以互动方式邀请读者反馈,并提供了专业背景介绍和相关服务信息。
2025-07-13 00:33:03
400
原创 深度学习框架(篇十三)-PyTorch-中阶API
PyTorch中阶API包含四大核心模块:1)数据管道(Dataset/DataLoader),支持自定义数据加载与批处理;2)模型层(nn.Module),提供丰富内置层(Linear/Conv2d/LSTM等)和自定义层开发能力;3)损失函数,内置常见损失计算并支持自定义;4)TensorBoard可视化工具。特别强调DataLoader的五大关键参数(dataset,batch_size,shuffle等)和模型层开发需继承nn.Module实现foward方法。
2025-07-13 00:32:34
1038
原创 深度学习框架(篇十一)-PyTorch-层次结构
PyTorch框架使用指南:从低阶到高阶API的实践路径 本文系统介绍了PyTorch框架的三个应用层次: 低阶API:涵盖张量操作和自动微分实现,以线性回归和DNN分类为例,展示基础建模流程 中阶API:引入数据管道(nn.Module)和优化器,对比低阶API在数据准备和模型定义阶段的改进 高阶API:通过封装nn.Module实现类似Keras的简洁接口,提供模型摘要等实用功能 技术亮点包括: 详细代码示例展示各层级差异、模型结构可视化方法、参数统计实现方案。
2025-07-12 00:01:03
801
原创 深度学习框架(篇十二)-PyTorch-低阶API
PyTorch低阶API核心内容包括张量操作、动态计算图和自动微分机制。张量操作分为结构操作(创建、索引、维度变换、合并分割)和数学运算(标量/向量/矩阵运算),支持类似NumPy的广播机制。动态计算图部分介绍了nn.functional函数式组件和nn.Module类式实现,后者能有效管理参数和子模块。文章还提供了模块管理方法(children()、modules()等)的使用说明。全文对比TensorFlow框架,强调PyTorch与NumPy操作的高度相似性,适合对比学习。
2025-07-12 00:00:52
1086
原创 深度学习框架(篇十)-PyTorch-核心概念
PyTorch作为主流深度学习框架,具有三大核心特性:1)张量操作支持多维度数组运算,与Numpy互通且共享内存;2)动态计算图实现即时执行和自动销毁,便于调试;3)自动微分机制通过backward()自动计算梯度。相比TensorFlow,PyTorch采用动态图设计,具有更直观的Python式编程体验和清晰的错误提示。框架提供丰富组件支持快速模型开发,特别适合科研和原型设计场景。其核心优势在于调试友好性和开发效率,同时保持与Numpy生态的无缝衔接,是深度学习研究和应用的高效工具。
2025-07-11 04:00:00
1510
原创 深度学习框架(篇九)-PyTorch-建模流程
PyTorch建模流程指南:针对结构化数据、图片、文本和时间序列四类数据,详解从数据准备到模型保存的完整流程(定义模型→训练→评估→使用)。
2025-07-11 03:45:00
265
原创 深度学习框架(篇八)-PyTorch-简介篇
本文系统介绍了PyTorch的核心功能与应用方法。主要内容包括:1)建模全流程(数据准备、模型定义/训练/评估/部署);2)两大核心特性(GPU加速张量计算和自动微分机制);3) 五层架构体系(硬件层至高阶API);4) 动态计算图优势(易调试、直观报错)。教程采用张量-自动微分-神经网络三级封装结构,配套提供仿Keras的高阶API接口torchkeras。
2025-07-09 00:11:16
923
原创 深度学习框架(篇七)-TensorFlow-高阶API
TensorFlow高阶API解析:Keras模型构建与部署指南 本文介绍了TensorFlow高阶API tensorflow.keras.models的核心功能,包括: 1)模型构建的三种方式(Sequential顺序模型、Functional API函数式API、Model子类化) 2)模型训练的多种方法(内置fit/train_on_batch、自定义训练循环、GPU/TPU训练) 3)模型部署方案(TensorFlow Serving、Spark调用)。
2025-07-09 00:05:25
413
原创 深度学习框架(篇六)-TensorFlow-中阶API
本文介绍了TensorFlow中阶API的核心组件,包括数据管道、特征列、激活函数、模型层、损失函数、评估函数、优化器、回调函数等8大模块。
2025-07-08 23:46:40
477
原创 深度学习框架(篇五)-TensorFlow-低阶API
TensorFlow低阶API核心功能解析:1) 张量操作包括结构操作(创建/索引/维度变换/合并分割)和数学运算(标量/向量/矩阵运算及广播机制);2) 计算图使用规范强调优先使用TensorFlow原生函数,避免修改外部数据结构;3) Autograph机制通过@tf.function实现计算图创建与执行,结合tf.Module实现模型封装。该API体系为开发各类机器学习模型提供了底层支持。
2025-07-08 23:38:26
1478
原创 深度学习框架(篇四)-TensorFlow-层次结构
TensorFlow层次结构概览:低阶API提供张量操作、计算图和自动微分功能,适用于基础模型实现;中阶API封装数据管道、模型层和损失函数等组件,简化开发流程;高阶API通过tf.keras.models提供三种建模方式(Sequential顺序模型、函数式API和Model基类继承),支持快速模型构建与训练。每种API层级对应不同开发需求,从底层控制到高层封装,开发者可根据项目复杂度灵活选择。
2025-07-07 00:01:56
624
原创 深度学习框架(篇三)-TensorFlow-核心概念
TensorFlow 2.0的三大核心概念解析:1)张量(Tensor)作为多维数组数据结构,分为不可变常量和可变变量;2)计算图构建方式演进:1.0静态图需Session执行,2.0动态图即时运算但效率低,Autograph通过@tf.function实现静态图转换;3)自动微分机制利用tf.GradientTape记录正向运算并自动求导。
2025-07-07 00:01:47
637
原创 深度学习框架(篇二)-TensorFlow-建模流程
本文介绍了TensorFlow针对四种数据类型(结构化数据、图片、文本、时间序列)的标准化建模流程,包括数据准备、模型定义、训练评估及保存使用等环节
2025-07-07 00:01:35
297
原创 深度学习框架(篇一)-TensorFlow-简介篇
本文基于《30天吃掉那只TensorFlow2》系列文档,系统介绍了TensorFlow2的核心知识体系。内容涵盖六大模块:1)建模全流程(数据准备到模型部署);2)核心概念(张量、计算图等);3)层级架构(硬件层到API层);4)低阶API(张量操作与Autograph);5)中阶API(数据管道、模型组件);6)高阶API(模型构建与训练策略)。文档提供完整中文版本和GitHub代码,适合不同层次学习者。作者作为资深算法工程师,还提供专业技术辅导服务。
2025-07-06 23:29:43
621
原创 一文了解树结构召回演变
本文梳理了2018-2021年间4种重要的树结构召回模型:阿里的TDM系列(TDM1.0、JTM2.0、OTM3.0)和字节的DR模型,这些模型在推荐系统中都取得了显著效果提升。文章提供了各模型的论文解读、技术详解视频和开源代码实现(包括XDL、PaddleRec、TensorFlow等框架),帮助读者了解树结构召回技术的发展脉络。
2025-07-06 23:08:45
946
原创 多任务学习-小结
多任务学习通过共享模型参数实现多个相关任务协同训练,显著降低部署成本和资源消耗。主要优势包括减少模型数量、任务间信息共享提升性能。2018-2021年间Google、阿里、腾讯等相继提出MMoE、ESMM、PLE等创新模型,在推荐系统等领域取得显著效果。典型模型从基础的Shared Bottom发展到分层专家网络(MMoE)、渐进式分层提取(PLE)等复杂结构。优化方法包括任务权重调整、帕累托优化等。该技术已成功应用于淘宝、QQ看点等实际业务场景,成为提升推荐系统性能的重要方法。
2025-07-06 00:16:51
633
原创 多任务学习-ESMM
摘要:ESMM是阿里巴巴提出的多任务学习模型,通过联合训练CTR和CVR解决样本选择偏差(SSB)和数据稀疏性(DB)问题。模型在整个用户行为空间建模,共享特征表达,采用交叉熵损失联合优化。实验表明,ESMM在公开数据集和产品数据集上均优于基线模型,尤其通过参数共享显著提升效果。该模型避免了传统方法中pCVR计算不稳定的问题,为推荐系统提供了有效解决方案。
2025-07-06 00:03:14
1150
原创 多任务学习-MMoe
摘要:MMoE是Google提出的多任务学习模型,通过专家系统和门控机制实现参数软共享,解决了传统硬共享模型对不同任务关联性处理不足的问题。实验表明,在人工合成数据集和真实业务场景中,MMoE在任务相关性处理上优于Shared-Bottom等传统方法。模型采用多任务交叉熵损失函数,在内容推荐等实际应用中展现出更好的AUC和R-Squared指标表现。该研究为处理相关性较弱的多任务学习场景提供了有效解决方案。(148字)
2025-07-06 00:02:34
1059
原创 Pandasql(在Pandas中使用SQL)
摘要:本文介绍了如何使用Pandasql模块在Pandas中执行SQL查询。首先通过pip安装模块并导入CSV数据集,然后演示了数据探索、列重命名、基本查询、WHERE条件筛选、分组排序等SQL操作。重点展示了数据合并(INNER JOIN)和LIMIT语句的应用。文章最后附有互动邀请和作者简介,强调通过点赞、收藏、评论等方式进行交流。全文以实际代码示例展示了SQL与Pandas的整合应用。
2025-07-05 02:45:00
235
原创 多任务学习-开源工具包
MTReclib是一个基于PyTorch的多任务推荐系统开源框架,实现了7种经典多任务模型(包括SingleTask、MMoE、PLE等),并提供了4个数据集及其基准结果。该框架扩展性强,便于开发新模型或测试新数据。项目地址:https://github.com/easezyc/Multitask-Recommendation-Library。作者为互联网大厂算法专家,提供算法面试辅导等服务。
2025-07-05 02:45:00
382
原创 机器学习-三大SOTA Boosting算法总结和调优
本文对比了XGBoost、LightGBM和CatBoost三种经典Boosting算法在结构化数据处理中的表现。三种算法均基于GBDT改进,但在树构造方式和类别特征处理上各有特点:XGBoost采用按层生长,LightGBM按叶子生长,CatBoost使用对称树结构;在类别特征处理上,LightGBM和CatBoost分别通过特征名称和索引实现自动处理。文章还介绍了网格搜索、随机搜索和贝叶斯优化三种超参调优方法,并提供了算法实现代码(P198-201)。
2025-07-04 01:18:52
764
原创 机器学习-CatBoost
CatBoost是由Yandex提出的高效处理类别特征的机器学习算法。其核心优势在于改进的目标变量统计(TS)方法,通过添加先验项减少数据偏移影响。算法采用贪心策略进行特征组合,并引入排序提升技术解决预测偏移问题,使用对称树作为基分类器提升效率。相比传统方法如硬编码和one-hot,CatBoost能更好地处理稀疏类别特征,同时支持多GPU加速训练。该算法在保持模型性能的同时显著提升了训练速度,特别适合包含大量类别特征的数据场景。
2025-07-04 01:12:35
760
原创 机器学习-LightGBM
《机器学习-公式推导和代码实现》介绍了LightGBM的五大优化维度。直方图算法通过特征离散化提升速度;单边梯度抽样减少样本量同时保持精度;互斥特征捆绑减少特征维度;leaf-wise生长策略提高效率并防止过拟合;此外还包括类别特征支持等改进。相比XGBoost,LightGBM在速度、内存占用和精度方面均有提升,特别适合大规模数据场景。
2025-07-04 01:04:10
605
原创 机器学习-XGBoost
《XGBoost算法解析与应用》摘要 本文系统介绍了XGBoost(极限梯度提升树)算法,该算法由陈天奇于2016年提出。相较于传统GBDT,XGBoost在算法精度、速度和泛化能力三个维度均有显著提升:1)通过二阶泰勒展开逼近损失函数提高精度;2)采用加权分位数sketch和稀疏感知算法优化计算效率;3)引入正则项、缩减率和列抽样等机制增强泛化性。文章包含算法原理详解及代码实现示例,适合机器学习从业者学习参考。作者为互联网大厂资深算法专家,提供专业的技术解析和实践指导。
2025-07-04 01:00:19
266
原创 Spark从入门到熟悉(篇六-总结篇)
本文总结了Spark系列学习内容,共五篇:从基础概念到实战应用,涵盖RDD编程、DataFrame、SparkSQL、性能调优及DBSCAN算法实现。同时推荐了Spark学习资料合集,包含干货精华和性能分析。作者作为互联网大厂算法专家,提供专业学习指导和求职辅导服务。文末邀请读者互动交流,共同探讨知识内容。
2025-07-04 00:28:22
396
原创 Spark从入门到熟悉(篇五)
本文介绍了使用RDD和SparkSQL实现DBSCAN分布式聚类算法的方法。首先概述了DBSCAN算法的特点及传统sklearn实现,包括核心点识别和聚类合并步骤。重点讲解了分布式实现方案:通过样本分批次、邻近关系计算、临时聚类簇创建等步骤,利用RDD完成核心逻辑。文章还提供了完整的代码实现路径,从数据生成到结果可视化。最后作者以专业算法研发背景,邀请读者互动交流,提供技术辅导服务。全文兼顾算法原理与工程实现,为大规模数据聚类提供了分布式解决方案。
2025-07-04 00:15:49
771
原创 Spark从入门到熟悉(篇四)
本文介绍了Spark性能调优的4个关键方面:调优原理、任务监控、调优案例和参考文章。重点讲解了任务执行时间预估公式、内存分配优化方法,以及并行度调整、数据倾斜处理等调优经验。提供了webUI监控入口和典型案例,包括资源配置优化、缓存使用等技巧。文末推荐了美团技术团队的Spark优化指南等参考资料,并附上作者的技术背景介绍和联系方式。文章采用技术说明与互动引导相结合的方式,既包含专业调优方法,又通过亲切的互动语言鼓励读者参与讨论。
2025-07-03 01:39:27
847
原创 Spark从入门到熟悉(篇三)
本文介绍了Spark SQL的核心概念和实战应用,主要内容包括:1. RDD与DataFrame/DataSet的对比,突出DataFrame在结构化数据处理上的优势;2. 5种创建DataFrame的方法;3. DataFrame的API和SQL交互方式,涵盖数据操作、转换、聚合等常见场景;4. 通过7个实战案例(如求平均数、众数、TopN等)展示Spark SQL的实际应用;5. 与Hive表的交互操作。文章强调Spark SQL作为声明式编程的优势,并提供从基础到进阶的完整知识脉络,适合开发者快速掌握
2025-07-03 01:36:05
976
原创 Spark从入门到熟悉(篇二)
本文介绍了Spark RDD编程的核心操作与实战案例。主要内容包括:1)RDD的两种创建方式(textFile和parallelize);2)常用Action操作(collect、reduce、countByKey等)和Transformation操作(map、filter、join等);3)PairRDD的特殊处理(reduceByKey、groupByKey等);4)缓存机制(cache/persist)与共享变量(广播变量和累加器);5)分区操作(repartition、mapPartitions等)
2025-07-02 23:42:06
956
原创 Spark从入门到熟悉(篇一)
Spark作为新一代大数据处理框架,相比MapReduce具有显著优势。本文系统介绍了Spark的核心概念,包括RDD弹性数据集、DAG有向无环图等基础架构,详细解析了Spark的运行流程和四种部署模式(Local/Standalone/Yarn/Mesos)。重点阐述了Spark的数据结构RDD及其操作(Transformation和Action),并通过WordCount示例展示PySpark的简洁实现。最后对比了PySpark与Spark-Scala的差异,指出PySpark在易用性方面的优势。
2025-07-02 00:57:13
971
原创 图神经网络(篇三)-基础知识
《深入浅出图神经网络-GNN原理解析》配套代码资源汇总,包含GCN、GraphSage、图分类和图自编码器等实战章节的PyTorch实现。书籍涵盖图神经网络基础理论、GCN性质、GNN变体与应用等内容,并引用多篇前沿论文。作者为互联网大厂算法专家,提供算法面试辅导与专业知识指导。配套代码链接详见文中,欢迎读者点赞收藏评论互动,共同探讨GNN技术。
2025-07-02 00:36:32
955
原创 图神经网络(篇二)-基础知识
PGL图学习框架提供了全面的图神经网络解决方案,涵盖图游走类算法(DeepWalk、Node2Vec、Metapath2Vec等)和图神经网络模型(GCN、GAT、ERNIESage等)。该框架支持同构图和异构图的建模,通过GitHub库、API文档、项目实例和视频课程提供完整学习资源。重点模型包括融合语义理解的ERNIESage系列和解决半监督分类的UniMP,其中ERNIESage针对文本图进行优化,UniMP则创新性地结合标签传递与图神经网络。框架还包含高效的采样方法和邻居聚合技术。
2025-07-01 23:49:23
985
原创 图神经网络(篇一)-GraphSage
GraphSAGE是一种基于图的归纳学习方法,由斯坦福大学于2017年提出。它通过采样和聚合节点的邻居特征来生成节点嵌入,适用于大规模动态图。相比传统方法,GraphSAGE能高效处理新节点,支持节点分类和链接预测任务。其核心包括随机采样邻居、多跳聚合及四种聚合器(平均、归纳式、LSTM、Pooling)。实验表明,GraphSAGE在多个数据集上性能显著优于基线方法,尤其LSTM和Pooling聚合器效果突出。该方法克服了GCN等直推学习模型的局限性,实现了高效的归纳学习,适用于工业级应用。
2025-07-01 23:42:13
1342
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人