
机器学习
文章平均质量分 75
LatinoCaribo
菜是原罪
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
K-means代码实战
Background: Clustering the categories of businesses in Yelp academic datasets through K-Means algorithm.#!/usr/bin/env python3# -*- coding: utf-8 -*-"""Created on Sat Oct 6 16:02:17 2018@author...原创 2018-10-06 17:15:16 · 337 阅读 · 0 评论 -
聚类算法之K-means
1.算法流程k-means算法也称K-均值聚类算法。它试图通过基于原型的、划分的距离计算来发现K个使用者预先指定的簇。将一组数据划分为预先设定好的k个簇,也可理解为随机选择k个向量作为初始均值向量。接下来根据均值向量将样本划分到距离最近的均值向量所在的簇中。这是一次迭代过程。重新计算并更新均值向量,不断重复该过程直到前后两次迭代得到的均值向量不再发生变化为止。重新计算并更新均值向量,...原创 2018-10-05 22:23:23 · 642 阅读 · 0 评论 -
聚类算法基础篇
1.聚类(clustering)在无监督 (unsupervised learning) 学习中,训练样本的标记信息是未知的,目的是通过对无标记训练样本的学习来揭示数据的内在性质及规律,为进一步的数据分析提供基础。在无监督学习中聚类算法的应用十分广泛。聚类是将数据集划分为若干个通常情况下不相交的子集,每个子集称为一个“簇”(cluster),每个簇可能对应着一些潜在的类别。聚类的基本原则是:簇...原创 2018-10-05 03:36:54 · 699 阅读 · 0 评论 -
Spark大数据分析入门笔记
目录一、术语解释二、Spark特征三、Spark整体工作流程四、Spark运行方式一、术语解释RDD(Resilient Distributed Dataset):弹性分布式数据集,是记录的只读分区集合,是Spark的基本数据结构。RDD代表一个不可变、可分区、里面的元素可并行计算的集合。RDD的依赖关系分为两种:窄依赖(Narrow Dependencies)、宽依赖(Wide Dependencies)。Spark会根据宽依赖窄依赖来划分具体的Stage,依赖可以高效地解决数据容原创 2020-07-01 17:40:48 · 1522 阅读 · 0 评论 -
随机森林、GBDT和xgboost
RF 和 GBDT联系和区别1、RF(随即森林) 原理用随机的方式建立一个森林,森林里面有很多的决策树,随机森林的每一棵决策树之间是没有关联的。在得到森林之后,当有一个新的输入样本进入的时候,就让森林中的每一棵决策树分别进行一下判断,看看这个样本应该属于哪一类(对于分类算法),然后看看哪一类被选择最多,就预测这个样本为那一类。2、RF 优缺点优点:在数据集上表现良好,两个随机性的引入,使得随机森林不容易陷入过拟合。在当前的很多数据集上,相对其他算法有着很大的优势,两个随机性的引入,使得随机森林原创 2020-05-14 17:28:09 · 821 阅读 · 0 评论 -
数据分析师笔试面试知识点总结
知识点1:贝叶斯公式贝叶斯公式:P(B|A)=P(A|B)*P(B)/P(A)其中P(A)可以展开为P(A)=P(A|B1)P(B1)+P(A|B2)P(B2)+…+P(A|Bn)*P(Bn)(这在很多问答题或者选择题中都有用到)知识点2:分类有监督就是给的样本都有标签,分类的训练样本必须有标签,所以分类算法都是有监督算法。监督机器学习问题无非就是“minimizeyour error...原创 2018-10-07 23:38:54 · 1752 阅读 · 0 评论 -
用户画像参数建模
1.概念用户画像(persona)是建立在一系列属性数据之上的目标用户模型,即真实用户的虚拟代表。通常是根据用户属性类(如用户人口学特征)、用户行为标签类(网络社交活动)、用户消费能力类(消费行为)、用户偏好类(如网络浏览内容、时间)等信息而抽象出的一个标签化的用户模型。2.用途精准营销:精准直邮、短信、App消息推送、个性化广告等。用户研究:指导产品优化,甚至做到产品功能的私人定制等。...原创 2019-08-27 11:00:34 · 548 阅读 · 0 评论 -
特征工程
1.概念特征工程是把原始数据转变为模型的训练数据的过程,目的是获取更好的训练数据特征。通常分为特征构建、特征提取、特征选择三个部分。特征提取:通过特征转换的方式得到一组具有明显物理或统计意义的特征特征选择:从特征集合中挑选一组具有明显物理或统计意义的特征子集。两者都能帮助减少特征的维度、数据冗余,特征提取有时能发现更有意义的特征属性,特征选择的过程经常能表示出每个特征的重要性对于模型构建的...原创 2019-04-02 15:34:41 · 246 阅读 · 0 评论 -
机器学习笔试基础
1.对于二分类问题,常用的评价指标是精准度 (Precision) 和召回率 (Recall),且通常类分为正类、负类。TP:将正类预测为正类数FN:将正类预测为负类数FP:将负类预测为正类数TN:将负类预测为负类数因此:精准率: P = TP/(TP + FP)召回率: R = TP/(TP + FN)F1值: F1 = 2PR/(P + R)2.朴素贝叶斯的基本假设:...原创 2018-10-07 17:53:04 · 412 阅读 · 0 评论 -
k近邻学习
1.算法介绍k近邻(k-Nearest Neighbour, 简称kNN) 学习是一种常用的监督学习方法。其工作机制是给定测试样本,基于某种距离度量找出训练集中与其最靠近的k个训练样本,然后根据这k个“邻居”的信息来进行预测。分类任务中可以使用==“投票法”==,即选择这k个样本中出现最多的类别标记作为预测结果。回归任务中可以使用==“平均法”==,即将这k个样本的实值输出标记的平均值作为...原创 2018-10-11 22:16:14 · 399 阅读 · 0 评论