
机器学习
_Seven°
这个作者很懒,什么都没留下…
展开
-
K-means算法(无监督学习)
1 什么是无监督学习现实生活中常常会有这样的问题:缺乏足够的先验知识,因此难以人工标注类别或进行人工类别标注的成本太高。很自然地,我们希望计算机能代我们完成这些工作,或至少提供一些帮助。根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题,称之为无监督学习。一家广告平台需要根据相似的人口学特征和购买习惯将美国人口分成不同的小组,以便广告客户可以通过有关联的广告接触到他们的目标客户。 某个人需要将自己的房屋清单分组成不同的社区,以便用户能更轻松地查阅这些清单。我们可以怎样最有用地对其进原创 2020-10-29 15:36:00 · 23036 阅读 · 1 评论 -
KNN算法
KNN即K-NearestNeighbor,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的K个邻近值来代表。1 KNN算法1.1 定义如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。1.2 距离公式两个样本的距离可以通过如下公式计算,又叫欧式距离。欧氏距离计算公式如下:比如存在点a(x1, y1, z1), b(x2, y2, z2)两个点,则a到b的距离为:2 电影类型分析..原创 2020-10-29 15:12:11 · 21442 阅读 · 1 评论 -
机器学习十大经典算法之线性回归
线性回归可以用以下式子进行描述:线性回归即连续值的预测问题,即根据给定的x以及模型参数θ的计算下,使得该方程的相应能够无限逼近真实值y。下面来举一个连续值预测的简单例子:y = w * x + b当知道两组参数时,即可通过消元法求得参数w与b,即可得到该方程的精确解。即w = 1.477, b = 0.0891.567 = w * 1 + b3.043 = w *...原创 2020-03-04 16:59:20 · 20422 阅读 · 1 评论 -
OneHot编码用于用于生产解决维度问题
不知道大家在使用OneHot编码的过程中有没有遇到这样的问题,比如在训练样本中某一列的值(离散)为“green” "red" "yellow",并对其进行了one-hot编码,效果如下:当在生产环境中实时读取新增数据时,出现一些训练样本中未见过的数据,如"green" "blue",其one-hot编码如下:那么在这种情况下会导致数据维度不一致,但由于训练好的模型输入维度是确定的,...原创 2019-10-25 09:43:09 · 21229 阅读 · 1 评论 -
机器学习算法选取
在不同的场景如何选取不同的算法总是困扰着我,请教过许多机器学习大牛,最终结论为,如果时间允许,最好每种算法都尝试一下,选择效果最好的算法应用到对应的场景。下面代码选取了五种主流机器学习算法,包括SVM、KNN、决策树、逻辑回归、朴素贝叶斯,当然也包括集成学习算法,Bagging、Adaboost、GBDT和随机森林。编写一个通用函数分别构建上述模型,并作出ROC曲线进行模型评估。以下为测...原创 2019-04-23 16:56:06 · 30624 阅读 · 1 评论 -
随机森林、GBDT、XGBoost比较
RF、GBDT和XGBoost都属于集成学习(Ensemble Learning),集成学习的目的是通过结合多个基学习器的预测结果来改善单个学习器的泛化能力和鲁棒性。 根据个体学习器的生成方式,目前的集成学习方法大致分为两大类:即个体学习器之间存在强依赖关系、必须串行生成的序列化方法,以及个体学习器间不存在强依赖关系、可同时生成的并行化方法;前者的代表就是Boosting,后者的代表是Bagg...原创 2019-04-23 17:59:18 · 34634 阅读 · 1 评论 -
GBDT调参
import pandas as pd import numpy as np ...原创 2019-04-24 10:41:04 · 30963 阅读 · 1 评论 -
机器学习模型持久化----pickle与joblib
场景:将训练好的模型保存至本地磁盘或者内存picklepickle 模块及其同类模块 cPickle 向 Python 提供了 pickle 支持。后者是用 C 编码的,它具有更好的性能,对于大多数应用程序,推荐使用该模块。joblibjoblib是scikit-learn的外带库,对于大数据而言,joblib比pickle更加高效,但是joblib...原创 2019-05-09 18:51:09 · 32045 阅读 · 3 评论 -
机器学习十大算法之随机森林
1. 随机森林的定义随机森林属于集成学习,集成学习(ensemble)的思想是为了解决单个模型或者有一组参数的模型所固有的缺陷,从而整合更多的模型,取长补短。随机森林就是集成学习思想下的产物,森林里面有很多的决策树组成,随机森林的每一棵决策树之间是没有关联的。在得到森林之后,当有一个新的输入样本进入的时候,就让森林中的每一棵决策树分别进行一下判断,看看这个样本应该属于哪一类(对于分类算法),然...原创 2019-07-26 10:31:52 · 24137 阅读 · 1 评论