
百问机器学习
人工智能博士
王博Kings,985AI博士在读,优快云博客专家,华为云专家,是《机器学习手推笔记》、《深度学习手推笔记》等作者;在人工智能、计算机视觉、无人驾驶等具有丰富的经验。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
《百问机器学习》第一问:为什么要对数值类型的特征做归一化?
目录 0. Normalization简单解释 1. 常用的归一化方法 (1)线性函数归一化(Min-Max Scaling) (2)零均值归一化(Z-Score Normalization) 2. 为什么说数据归一化不是万能的?有哪些 适用哪些不适用? 0. Normalization简单解释 为了消除数据特征之间的量纲的影响,所以需要进行归一化的处理,使得可比性 我联想了一...原创 2019-07-15 19:18:29 · 2223 阅读 · 0 评论 -
《百问机器学习》第二问:什么是类别型特征?数据预处理时怎样处理类别型特征?处理类别型特征的编码方式有哪几种
目录 1. 什么是类别型特征? 2. 处理类别型特征的编码方式有哪几种? 2.1 序号编码 2.2 独热编码 2.2.1对于类别取值比较多的情况下,使用独热编码注意以下问题: 2.3 二进制编码 3除了这些编码还有哪些? 1. 什么是类别型特征? 类别型特征(Categorical Feature)主要指的是性别(男、女)、血型(A、B、AB、O)等只在有限选项内取值的特征。...原创 2019-07-15 19:53:12 · 4364 阅读 · 0 评论 -
《百问机器学习》第六问:图像分类时训练数据不足会带来什么问题?如何缓解数据量不足带来的问题?
目录 1. 模型可以提供什么? 2. 先验信息可以用在哪里? 3. 图像分类训练数据不足带来的问题? 4. 如何解决图像分类训练数据不足? 5. 图像分类任务中,在保持图像类别不变的前提下,可以对训练集中的每幅图像进行哪些变换? 6. 如何训练自己的模型?迁移学习 1. 模型可以提供什么? 训练数据中所蕴含的信息 模型构造学习推理过程中,人们提供的先验信息 训练数据不足时...原创 2019-07-18 16:13:48 · 2376 阅读 · 0 评论 -
《百问机器学习》第三问:什么是组合特征?如何处理高维组合特征?
目录 举例1 举例2 为了提高复杂关系的拟合能力,在特征工程中经常会把一届离散特征两两组合,构成高阶组合特征。 举例1 假如广告点击有2中离散特征 逻辑回归为例,数据特征向量为X=(x1,x2,...xk),则有 举例2 若用户数量m,物品数量n,学习的参数规模m*n。实际中,不可行! 所以 ...原创 2019-07-16 16:04:11 · 3103 阅读 · 2 评论 -
《百问机器学习》第四问:有哪些文本表示模型?各有什么优缺点?
目录 1. 有哪些文本表示模型? 1.1 词袋模型 1.1.1 TF-IDF权重计算 公式: 1.2 主题模型 1.3 词嵌入与深度学习模型 为什么深度学习有用? 1. 有哪些文本表示模型? 词袋模型(Bag of Words) TF-IDF(Term Frequency-Inverse Document Frequency) 主题模型(Topic Model) 词嵌入模...原创 2019-07-16 19:44:42 · 1757 阅读 · 0 评论 -
《百问机器学习》第五问:Word2Vec是什么?Word2Vec如何工作?Word2Vec与LDA有什么区别和联系?
目录 总述: 1. Word2Vec的两种网络结构 1.1 输入层 1.2 映射层 1.3 输出层 1.4 神经网络的权重 2.Word2Vec与LDA的区别和联系 2.1 主题模型与词嵌入方法 总述: Word2Vec是2013年谷歌提出来目前最为常用的词嵌入模型之一。 Word2Vec是一种浅层的神经网络模型,包含有两种网络结构:CBOW(Continues Bag ...原创 2019-07-17 20:11:12 · 2378 阅读 · 0 评论 -
《百面机器学习》第八问:精确率与召回率的权衡,P-R曲线
目录 1. 实际案例: 2. 回顾基本知识: 精确率Precision 召回率Recall 排序问题中,如何衡量模型性能? 精确率和召回率是既矛盾又统一的两个指标 3. 解答实例问题 如何解决或者权衡? P-R曲线 F1 score 是精确率和召回率的调和平均值 1. 实际案例: 搜索引擎提供模糊搜索功能,搜索排序模型返回的TOP 5 精确率非常高,实际使用中,用户找不...原创 2019-07-30 16:25:27 · 2258 阅读 · 0 评论 -
《百面机器学习》第七问:准确率的局限性-为什么分类的准确率很高,但应用起来效果很差?
目录 回顾知识点: 实际场景: 1. 什么是分类的准确率? 2. 如何避免由于样本比例不均衡导致准确率失效? 回顾知识点: 准确率 : Accuracy 精确率 : Precision 召回率 : Recall 均方根误差 : Root Mean Square Error, RMSE 实际场景: 拿到奢侈品用户数据,训练和测试奢侈品用户的分类模型,该模型分类...原创 2019-07-28 16:00:44 · 3585 阅读 · 1 评论