
机器学习
As a layman
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
《推荐系统实践》读书笔记 第二章
第二章 利用用户行为数据利用用户行为数据啤酒和尿布的例子购买A商品的用户都购买B商品协同过滤基于用户行为分析的推荐算法是个性化推荐系统的重要算法, 学术界一般将这种类型的算法称为协同过滤算法。顾名思义,协同过滤就是指用户可以齐心协力,通过不断地和网站互动,使自己的推荐列表能够不断过滤掉自己不感兴趣的物品,从而越来越满足自己的需求显示反馈 隐式反馈用户行为在个性化推荐系统中一般...原创 2020-02-01 10:58:16 · 496 阅读 · 0 评论 -
逻辑回归优化 正则化
逻辑回归的优化有无截距对于逻辑回归分类,就是找到z那条直线,不通过原点有截距的直线与通过原点的直线相比,有截距更能将数据分类的彻底。部分测试数据0 1:1.0140641394573489 2:1.00534917943009061 1:2.012709390641638 2:2.0019071172152390 1:1.0052568352996578 2:1.016289421...原创 2020-01-29 22:17:44 · 1171 阅读 · 0 评论 -
数学知识复习
数学知识复习Log对数如果ax=Na^x =Nax=N(a>0且a ≠1)则x叫做以a为底N为对数,记做:x=logaNx=log_aNx=logaNa叫做对数的底,N叫做真数通常我们把以10为底的对数叫做常用对数,lgN表示通过我们把以e为底的对数叫做自然对数,lnN表示基础:负数和0没有对数loga1=0log_a1=0loga1=0logaa=1log_aa=...原创 2020-01-28 14:58:31 · 256 阅读 · 0 评论 -
道路预测
道路预测每条道路的拥堵情况不仅和当前道路前一个时间点拥堵情况有关系,还和与这条道路临近的其他道路的拥堵情况有关。甚至还和昨天当前时间点当前道路是否拥堵有关联。我们可以根据这个规律,构建训练集,预测一条道路拥堵情况。设现在要训练一个模型:使用某条道路最近三分钟拥堵的情况,预测该条道路下一分钟的拥堵情况。如何构建训练集?步骤:1.计算道路每分钟经过的车辆数和速度总和,可以得到道路实时拥堵情况...原创 2020-01-28 12:07:37 · 591 阅读 · 0 评论 -
音乐分类
傅里叶变换傅里叶原理:任何连续测量的时序信号,都可以表示为不同频率的正弦波信号的无限叠加。时域分析:对一个信号来说,信号强度随时间的变化的规律就是时域特性,例如一个信号的时域波形可以表达信号随着时间的变化。频域分析:对一个信号来说,在对其进行分析时,分析信号和频率有关的部分,而不是和时间相关的部分,和时域相对。也就是信号是由哪些单一频率的的信号合成的就是频域特性。频域中有一个重要的规则是正弦...原创 2020-01-28 10:32:46 · 477 阅读 · 0 评论 -
TF-IDF
TF-IDF :term frequency-inverse document frequency一种用于咨询检索与资讯勘测的常用加权技术是一种统计方法,用以评估一个字词对于一个文件集或者一个语料库中的其中一份文件的重要程度字词的重要性随着它在文件中出现的次数成正比增加但同时会随着它在语料库中出现的频率成反比下降加权的各种形式常备搜索引擎应用作为文件与用户查询之间相关程度的度...原创 2019-11-13 15:38:39 · 197 阅读 · 0 评论 -
Kmeans 聚类算法
K-means聚类算法机器学习中有两类的大问题,一个是分类,一个是聚类。分类是监督学习,原始数据有标签,可以根据原始数据建立模型,确定新来的数据属于哪一类。聚类是一种无监督学习,聚类是指事先没有“标签”,在数据中发现数据对象之间的关系,将数据进行分组,一个分组也叫做“一个簇”, 组内的相似性越大,组间的差别越大,则聚类效果越好,也就是簇内对象有较高的相似度,簇之间的对象相似度比较低,则聚类效果越...原创 2020-01-25 23:33:33 · 5508 阅读 · 0 评论 -
距离测度
欧氏距离测度(EuclideanDistanceMeasure)也称欧几里得距离,在一个N维度的空间里,求两个点的距离,这个距离肯定是一个大于等于零的数字,那么这个距离需要用两个点在各自维度上的坐标相减,平方后加和再开方。一维,二维,三维的欧式距离计算方法:一维:二维: 三维: 可以转为 平方欧氏距离测度(SquaredEuclideanDistanceMeasure)就是上面的欧...原创 2020-01-25 17:45:51 · 2771 阅读 · 0 评论 -
贝叶斯分类算法
贝叶斯分类算法朴素贝叶斯(Naive Bayes ,NB)算法是基于贝叶斯定理与特征条件独立假设的分类方法,该算法是有监督的学习算法,解决的是分类问题,是将一个未知样本分到几个预先已知类别的过程。朴素贝叶斯的思想就是根据某些个先验概率计算Y变量属于某个类别的后验概率,也就是根据先前事件的有关数据估计未来某个事件发生的概率。举例:一个学校内有60%的学生是男生,40%的学生是女生。根据统计,...原创 2020-01-24 15:21:03 · 6741 阅读 · 0 评论 -
机器学习 -- 集成学习
集成学习:不同的算法对同一问题进行分析。 然后进行投票处理。少数服从多数模拟集成学习import numpy as npimport matplotlib.pyplot as pltfrom sklearn import datasetsX,y= datasets.make_moons(n_samples=500, noise=0.3,random_state=42)plt.s...转载 2019-12-07 15:51:28 · 217 阅读 · 0 评论 -
决策树 信息熵 条件熵 基尼系数 信息增益 信息增益率 CART 随机森林
决策树:原创 2019-12-07 13:27:02 · 2348 阅读 · 0 评论 -
机器学习 -- SVM
SVM 支撑向量机support Vector Machine1逻辑回归:但是当决策边界不唯一时,定义一个概率函数,求损失函数。然后求出决策边界我们希望的决策边界是距离红色,蓝色最近的点都尽可能的远,而且还能很好的分别红色和蓝色两种类别的数据点hard svm假设我们的数据是线性可分的,用 hard svmsvm求得的是 margin 最大化margin=2dsvm...转载 2019-12-02 18:28:05 · 368 阅读 · 0 评论 -
分类算法的评价: 混淆矩阵,ROC曲线,AUC面积
分类准确度的问题一个癌症预测系统,输入体检信息,可以判断是否有癌症:预测准确度:99.9%如果某种癌症的产生的概率只有0.1%我们的系统预测所有人都是健康的,即可达到99.9%的准确率、如果某种癌症的产生的概率只有0.01%我们的系统预测所有人都是健康的,即可达到99.99%的准确率、对于极度偏斜(Skewed Data)的数据,只使用分类准确度是远远不够的。例如上面的例子使用混...原创 2019-11-29 12:27:56 · 816 阅读 · 0 评论 -
逻辑回归
逻辑回归 Logistic Regression逻辑回归:解决分类问题回归问题怎么解决分类问题?将样本的特征和样本发生的概率联系起来,概率是一个数y^=f(x)\hat{y} = f(x)y^=f(x)p^=f(x)\hat{p} = f(x)p^=f(x)逻辑回归既可以看做是回归问题,也可以看做是分类问题,通常作为分类算法用,只可以解决二分类问题。绘制 σ\sigma...原创 2019-11-28 14:11:02 · 358 阅读 · 0 评论 -
多项式回归,模型泛化, 学习曲线, 偏差方差权衡, 模型正则化, 岭回归
多项式回归还是在线性回归的基础上进行,是对数据进行升维,然后进行线性回归处理import numpy as npimport matplotlib.pyplot as pltx = np.random.uniform(-3,3,size=100)X = x.reshape(-1,1)X.shapey = 0.5 * x**2 +x +2 +np.random.normal(0,...原创 2019-11-26 23:53:30 · 478 阅读 · 0 评论 -
机器学习 -- 主成分分析
主成分分析Principal Component Analysis PCA一个非监督的机器学习算法主要用于数据的降维通过降维,可以发现更便于人类理解的特征其他应用,可视化,去噪原理:进行降维,保留特征1进行降维,保留特征2上面哪种方案更好?可以看出 保留特征1 的点与点之间的间距更大,拥有更好的可区分度。这种方案比较好还可以有更好的方案吗?将点映射到这条直线上这种...转载 2019-11-26 16:12:25 · 442 阅读 · 0 评论 -
梯度下降法
强烈推荐链接这篇文章,通俗易懂https://www.jianshu.com/p/c7e642877b0e梯度下降法不是一个机器学习算法是一种基于搜索的最优化方法作用:最小化一个损失函数梯度上升法:最大化一个效用函数梯度下降法η\etaη称为学习率(learning rate)η\etaη的取值影响获得最优解的速度η\etaη取值不合适,甚至得不到最优解η\etaη...原创 2019-11-24 17:49:25 · 247 阅读 · 0 评论 -
线性回归,回归算法评估, 多元线性回归
线性回归解决回归问题思想简单,实现容易许多强大的非线性模型的基础结果具由很好的可解释性蕴含机器学习中的很多重要思想例如 房屋价格(输出标记)和面积(样本特征)之间的关系简单线性回归样本特征只有一个,称为 简单线性回归其关系为 y = ax+b假设我们找到3了最佳拟合的直线方程,y =ax+b则对每个样本点 xi 根据我们的直线方程,预测值为 y^i\hat{y}^...原创 2019-11-23 21:42:53 · 592 阅读 · 0 评论 -
KNN, 数据归一化
KNN - K近邻算法K-Nearest Neighbors特点思想极度简单应用数学知识少效果好(缺点?)可以解释机器学习算法使用过程中的很多问题更完整的刻画机器学习应用的流程K近邻算法取一个k值,假设k=3,根据一个点A的位置,计算距离这个点最近的3(k)个点的的类型。来进行投票产生A的类型计算距离:KNN的过程import numpy as npfrom ...原创 2019-11-21 22:41:19 · 2370 阅读 · 0 评论 -
numpy
创建np.arrayIn [2]: import numpy as npIn [3]: np.__version__Out[3]: '1.17.0'In [4]: arr = np.array([i for i in range(10)])In [6]: arrOut[6]: array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])In [7]: arr[3...原创 2019-11-21 14:11:05 · 264 阅读 · 0 评论 -
机器学习
如何评价算法的好坏如何解决过拟合和欠拟合如何调节算法的参数如何验证算法的正确性原创 2019-10-29 21:53:55 · 152 阅读 · 0 评论