
深入浅出解读机器学习
文章平均质量分 91
本专栏覆盖了机器学习的基本概念、算法原理、编程实践、项目案例分析等多个方面,旨在帮助读者从理论到实践,全面掌握机器学习技术。加入我们的专栏,一起学习、交流、成长,探索机器学习的无限可能!
Jin_Kwok
QS TOP100 本硕,优快云博客专家,曾在阿里、微软等公司重要项目中担任技术负责人或核心研发成员。在人工智能领域顶会+SCI期刊发表多篇论文,授权发明专利多项
展开
-
白话 Transformer 原理-以 BERT 模型为例
深入解读 Transformer 底层原理,结合大量生动的案例和图例推演,如同白话,阐述 Transformer 相关的多头注意力机制(Multi-Head Attention)、位置编码(Positional Encoding)、前馈神经网络(Feed Forward Neural Network)、Softmax等环节。同时详细解读了模型预训练、微调、运行的原理。原创 2024-01-30 19:58:57 · 1291 阅读 · 0 评论 -
推荐系统(五)再谈召回、打分和重排
在《机器学习28:推荐系统-概述》一文中,笔者概述了推荐系统的基本术语和一般架构,通过【推荐系统 I~IV】系列课程的学习,相信读者对推荐系统已经有了一定的理解。本节,我们再来回顾一下推荐系统的核心环节——召回、打分、重排。原创 2023-07-18 17:35:19 · 921 阅读 · 0 评论 -
推荐系统(四)深度神经网络DNN
深度神经网络 (DNN) 模型可以解决矩阵分解的这些局限性。DNN 可以轻松地合并 User 特征和 Item 特征(由于网络输入层的灵活性),从而帮助捕获用户的特定兴趣并提高推荐的相关性。原创 2023-07-13 17:51:13 · 1717 阅读 · 1 评论 -
推荐系统(三)使用 TensorFlow 构建电影推荐系统
本文将介绍基于MovieLens 数据集创建一个电影推荐系统的方法。具体而言,包括探索电影数据,训练矩阵分解模型,检查嵌入,矩阵分解中的正则化,Softmax 模型训练等内容。原创 2023-07-10 15:09:10 · 1581 阅读 · 0 评论 -
推荐系统(二)协同过滤
在《机器学习28:《推荐系统-I》概述》一文中,笔者介绍了“基于内容过滤(content-based filtering)”和“协同过滤(Collaborative Filtering)”两种常见的【候选 Item 池】生成方法。其中,基于内容过滤非常简单,当然,其局限性也很明显。相较之下,协同过滤会同时利用 User 和 Item 之间的相似性来推荐。原创 2023-07-07 17:07:22 · 1093 阅读 · 0 评论 -
推荐系统(一)概述
在互联网领域,推荐系统(Recommendation Systems)的应用非常广泛。在音视频方面,如抖音、快手、哔哩等;在电商平台方面,如京东、淘宝、拼多多等。推荐有助于帮助用户快速发现潜在感兴趣的内容(音视频、商品、新闻等信息流),从而提升用户体验,同时有助于提升商业效率。从本文开始,笔者将结合自身在信息流推荐领域的经验,通过系列文章对推荐系统展开介绍。原创 2023-07-07 15:15:44 · 5371 阅读 · 0 评论 -
机器学习27:使用 Pandas 和 TensorFlow 进行数据建模编程实践
本文详细介绍了基于Pandas 和 TensorFlow 探索、清理以及转换用于训练模型数据集的方法,辅以代码和图片。原创 2023-07-06 16:12:09 · 946 阅读 · 0 评论 -
机器学习26:《数据准备和特征工程-IV》数据转换
特征工程 是确定哪些特征可能对训练模型有用,然后通过转换日志文件等数据来源中的原始数据来创建这些特征的过程。在本文中,笔者将重点讨论何时以及如何转换数字和分类数据,以及不同方法的权衡。原创 2023-07-05 21:32:33 · 2170 阅读 · 1 评论 -
机器学习25:《数据准备和特征工程-III》采样和分隔
作为机器学习项目的基础,本文聚焦于解读数据采用和数据分割。原创 2023-07-05 17:58:24 · 811 阅读 · 0 评论 -
机器学习24:《数据准备和特征工程-II》收集数据
构建数据集常用的步骤包括:收集原始数据;识别特征和标签来源;选择抽样策略;拆分数据。这些步骤在很大程度上取决于你如何构建 ML 问题。本文主要介绍——数据收集。原创 2023-07-05 16:25:43 · 2370 阅读 · 2 评论 -
机器学习23:《数据准备和特征工程-I》概述
机器学习帮助我们找到数据中的模式,然后我们用这些模式来预测新的数据点。为了获得正确的预测,我们必须构建数据集并正确地转换数据。在《数据准备和特征工程》系列文章中,笔者将重点介绍这两个关键步骤。原创 2023-07-05 15:25:33 · 190 阅读 · 0 评论 -
机器学习22:机器学习工程落地注意事项-II(公平-Fairness)
负责任地评估机器学习模型需要做的不仅仅是计算损失指标。在将模型投入实际应用之前,审核训练数据并评估偏见(Bias)对于预测至关重要。本文内容着眼于解读训练数据中可能存在的不同类型的人类偏见,同时提供了识别它们并评估其影响的策略。原创 2023-07-05 14:09:50 · 1177 阅读 · 0 评论 -
机器学习21:机器学习工程落地注意事项-I
ML 代码是现实世界 ML 生产系统的核心,但该框通常仅占整个 ML 生产系统整体代码的 5% 或更少。在实际应用中,机器学习生产系统需投入大量资源来输入数据——收集数据、验证数据并从中提取特征。此外,服务基础设施必须到位,才能将 ML 模型的预测付诸现实世界的实际应用。原创 2023-07-04 19:45:58 · 755 阅读 · 0 评论 -
机器学习20:嵌入-Embeddings
嵌入(Embeddings)是一个相对低维的空间,我们可以将高维向量转换到其中。嵌入使得对大型输入(例如表示单词的稀疏向量)进行机器学习变得更加容易。理想情况下,嵌入通过将语义相似的输入紧密地放置在嵌入空间中来捕获输入的一些语义。嵌入可以在模型中学习和重用。原创 2023-07-04 17:41:26 · 2187 阅读 · 0 评论 -
机器学习19:多类别神经网络-Multi-Class Neural Networks
在本文中,我们将研究多类分类,它可以从多种可能性中进行选择。例如:这架飞机是波音 747、空客 320、波音 777 还是巴西航空工业公司 190?这是苹果、熊、糖果、狗还是鸡蛋的图像?在现实世界中,多分类问题需要从数百万个单独的类中进行选择。例如一个可以识别几乎任何东西的图像的多类分类模型。原创 2023-07-04 17:01:06 · 1280 阅读 · 0 评论 -
机器学习18:训练神经网络-最佳实践
在【机器学习17】中,笔者介绍了反向传播算法。反向传播算法是神经网络最常见的训练算法。它使得梯度下降对于多层神经网络来说是可行的。 TensorFlow 可以自动处理反向传播,因此我们不需要深入了解该算法。要了解其工作原理,请阅读【机器学习17】。本文将重点解释反向传播的失败案例以及正则化神经网络的最常见方法。原创 2023-07-04 16:31:13 · 975 阅读 · 0 评论 -
机器学习17:训练神经网络-反向传播算法
反向传播算法对于快速训练大型神经网络至关重要,本文将介绍算法的工作原理。原创 2023-07-04 14:35:17 · 1722 阅读 · 0 评论 -
机器学习16:使用 TensorFlow 进行神经网络编程练习
在【机器学习15】中,笔者介绍了神经网络的基本原理。在本篇中,我们使用 TensorFlow 来训练、验证神经网络模型,并探索不同 “层数+节点数” 对模型预测效果的影响,以便读者对神经网络模型有一个更加直观的认识。原创 2023-07-03 21:16:45 · 696 阅读 · 0 评论 -
机器学习15:神经网络-Neural Networks
神经网络是特征交叉的更复杂版本。本质上,神经网络会学习适当的特征组合。本文主要介绍神经网络的结构、隐藏层、激活函数等内容。原创 2023-07-03 15:31:17 · 1729 阅读 · 0 评论 -
机器学习14:稀疏性-Sparsity
现实世界中,问题的特征的数量往往是很大的,而其中起决定性作用的往往是很小的一部分,稀疏规则化算子的引入会学习去掉这些没有信息的特征,也就是把这些特征对应的权重置为 0。原创 2023-07-03 11:51:47 · 2206 阅读 · 2 评论 -
机器学习13: 使用 TensorFlow 进行二元分类(Binary Classification)编程实践
在【机器学习6】和【机器学习9】中,我们使用 TensorFlow 进行了“线性回归模型”和“组合特征”编程实践。本质上,其中采用的都是回归模型,也就是说,我们创建了产生浮点预测的模型,比如“这个社区的房子要花 N 千美元。” 在本篇,我们将创建并评估一个二进制分类模型。原创 2023-06-30 21:05:47 · 1119 阅读 · 0 评论 -
机器学习12:分类 Classification
分类(Classification)是一个有监督的学习过程,目标数据集(示例集)中具有的类别是已知的,分类过程需要做的就是把每一条记录归到对应的类别下。由于必须事先知道各个类别的信息,并且所有待分类的数据条目都默认有对应的类别,因此分类算法也有其局限性,当上述条件无法满足时,我们就需要尝试聚类(后面介绍)分析。在【机器学习11】中,笔者介绍了(Logistic Regression),它就是一种分类分析,它有正向类和负向类,即:y ∈ {0, 1},其中 0 代表负向类,1 代表正向类。原创 2023-06-29 11:38:15 · 1788 阅读 · 0 评论 -
机器学习11:逻辑回归-Logistic Regression
本文介绍逻辑回归-Logistic Regression原创 2023-06-28 21:04:13 · 1073 阅读 · 0 评论 -
机器学习10:正则化-Regularization
解读正则化(Regularization)原创 2023-06-28 20:25:56 · 1287 阅读 · 0 评论 -
机器学习9:使用 TensorFlow 进行特征组合编程实践
在【机器学习6】这篇文章中,笔者已经介绍过环境准备相关事项,本文对此不再赘述。本文将通过编程案例来探索特征组合(Feature Crosses)对模型训练的影响,加深对上一篇文章(机器学习8)的理解。原创 2023-06-28 18:23:33 · 1126 阅读 · 0 评论 -
机器学习8:特征组合-Feature Crosses
特征组合也称特征交叉(Feature Crosses),即不同类型或者不同维度特征之间的交叉组合,其主要目的是提高对复杂关系的拟合能力。在特征工程中,通常会把一阶离散特征两两组合,构成高阶组合特征。可以进行组合的特征包括离散特征和连续特征,但是连续特征需要进行一定的处理后才可以进行特征组合。为了便于理解,可以将特征组合理解为两个离散特征交叉合并,举个例子:特征 A 有 m 个类别,特征 B 有 n 个类别,则特征 A 和特征 B 的组合就是将特征 A、B 中的各个类别两两组合,其维度为 m*n。原创 2023-06-28 16:11:39 · 2636 阅读 · 0 评论 -
机器学习7:特征工程
在传统的软件工程中,核心是代码,然而,在机器学习项目中,重点则是特征——也就是说,开发人员优化模型的方法之一是增加和改进其输入特征。很多时候,优化特征比优化模型带来的增益要大得多。原创 2023-06-27 17:52:34 · 1587 阅读 · 0 评论 -
机器学习6:使用 TensorFlow 的训练线性回归模型
纸上得来终觉浅,绝知此事要躬行。前面 5 篇文章介绍了机器学习相关的部分基础知识,在本章,笔者将讲解基于 TensorFlow 实现一个简单的线性回归模型,以便增强读者对机器学习的体感。原创 2023-06-27 16:30:02 · 2718 阅读 · 0 评论 -
机器学习4:基本术语
机器学习涉及很多专业术语,为了避免混淆概念,我们在学习中,首先必须统一语言:即充分理解专业术语,并采用专业术语来描述机器学习相关的内容。原创 2023-06-26 11:00:14 · 666 阅读 · 0 评论 -
机器学习5:基于线性回归理解减少“损失”的方法
在上节中,笔者介绍了“损失(Loss)”的定义,在训练模型时,减少损失(Reducing Loss)是极为关键的,只有“损失”足够小的机器学习系统才有实用价值。在本节中,笔者将基于线性回归(Linear Regression)来介绍减少损失的具体方法。原创 2023-06-26 17:59:01 · 772 阅读 · 0 评论 -
机器学习4:监督学习
目前,在机器学习系统中,监督学习(Supervised Learning)占主导地位。由于监督学习的任务定义明确,例如识别垃圾邮件或预测降水,因此它比无监督学习具有更多潜在用例;而与强化学习相比,监督学习更好地利用历史数据。原创 2023-06-25 16:58:22 · 987 阅读 · 0 评论 -
机器学习3:简介与类型
从翻译应用、商品推荐、医疗诊断到自动驾驶汽车,机器学习 (ML) 作为一种技术,都有用武之地。机器学习提供了一种解决问题、回答复杂问题以及创建新内容的新方式。机器学习可以预测天气、估算行程时间、推荐歌曲、自动补全句子、汇总文章以及生成全新的图片。从根本上来讲,机器学习是对一种软件(称为模型)进行训练的过程,用于进行实用的或生成内容。原创 2023-06-25 15:49:36 · 571 阅读 · 0 评论 -
机器学习2:问题构建及框架化
机器学习作为一种解决方案,并不是“万金油”,它只适用于一些特定的场景即通过分析问题以隔离需要解决的各个元素的过程。问题构建有助于确定项目的技术可行性,并提供一组明确的目标和成功标准。在考虑机器学习解决方案时,有效的问题构建可以确定你的产品最终是否成功。原创 2023-06-20 18:08:47 · 1354 阅读 · 0 评论 -
机器学习1:windows系统安装numpy、scipy、scikit-learn、matplotlib模块
1. 安装方法一:借助pip工具安装这是最省事的一种方法,运行如下安装命令即可:python install numpy注意:如果之前没有配置过 pip 工具,需要将 pip 工具的路径添加到环境变量PATH中,默认情况下,pip工具的位置在Python安装路径的Script文件夹下,以我的安装路径为例:D:\Program_file\Python\Python36\Scripts...原创 2018-10-11 16:31:57 · 1238 阅读 · 1 评论