
数据分析
lilinfei001
这个作者很懒,什么都没留下…
展开
-
矩阵:如何使用矩阵进行PageRank计算
向量可以用一维度数组表示,矩阵可以用二维数组表示PageRank算法PageRank算法的公式为:其中pi为第i张网页,Mi为第i张网页入链的集合,Pj为Mi中的第i张网页,L(pj) 为Pj出链的数量,α为不随机冲浪的概率,1/L(pj)为从网页j到网页i的概率。PageRank是采用迭代法来实现的,初始的时候,每个网页的PageRank分数都一样(比如为1),利用上述公式不断地迭代更新网页的PR得分,PageRank是一个马尔科夫过程,网页PR得分最终会稳定在一个数值。简化Pa.原创 2020-08-30 22:10:31 · 2709 阅读 · 0 评论 -
拟合、欠拟合与过拟合
什么是拟合、适度拟合、欠拟合、过拟合每种机器学习模型都有自己的假设和参数。虽然朴素贝叶斯和决策树都属于分类算法,但是他们的假设是不一样的,朴素贝叶斯假设变量之间是独立的,决策树的假设是集合之间的纯净度或混乱程度。参数就是根据假设和训练样本推导出来的数据,朴素贝叶斯的参数就是先验概率和条件概率,决策树的参数就是各个节点以及节点上的决策条件。我们平时接触了很多监督机器模型,都会提到训练一个模型,更学术一点的术语叫拟合一个模型。所谓模型拟合(Model fitting)就是根据模型假设和样本推导参数的原创 2020-08-02 11:28:19 · 2086 阅读 · 0 评论 -
文本分类:如何区分特定类型的新闻
我们平时使用的新闻APP,把新闻分成了不同的类别,如政治、军事、财经等。新闻数据是海量的,计算机是如何对这些新闻进行自动分类的呢?我们上节介绍过朴素贝叶斯是以水果为例讲解如何给水果自动分类,同理我们也可以用于新闻的自动分类。在对新闻进行自动分类前,我们需要先对新闻进行自然语言处理。文本分类系统的基本框架1、采集训练样本对于每一个数据,我们都需要告诉计算机属于那个分类,新闻分类为例,我们需要明确告诉计算机新闻属于那个分类。训练数据的分类,相当于计算机学习的标准答案,其质量决定了学习效果的好坏。原创 2020-07-12 19:32:47 · 1368 阅读 · 0 评论 -
信息熵、信息增益以及决策树
什么是信息熵?信息熵是信息论的范畴,利用概率论和统计的方法,因此信息熵也被称为基于概率分布的信息熵。在介绍信息熵概念之前,先介绍一个基本的概念:区分能力。所谓区分能力是指把对象划分到具体分组的能力,比如金庸武侠小说里的英雄人物,每一个武侠人物都是性别、智商、情商、侠义、个性5个属性,如何根据这个5个属性来区分不同的武侠人物。如果某个属性可以将被测试的人物尽可能分到相应的组,那么可以认为这个问题的区分能力强。我们看性别和智商两个属性。图片来源:极客时间程序员的数学基础课我们看性别属性原创 2020-07-09 22:55:08 · 2363 阅读 · 0 评论 -
朴素贝叶斯定理:如何让计算机学会自动分类
本文是极客时间“程序员的数学基础课”学习笔记整理如何判断一个水果属于苹果还是西瓜?为了对水果进行分类,我们需要提取水果相关的属性,比如形状、大小、纹理等,如下表所示。 水果名称 形状 外观颜色 外观纹理 重量 握感 口感 苹果 不规则圆 红色 无 200原创 2020-07-09 22:39:41 · 468 阅读 · 0 评论 -
显著性检验与A/B测试(下)
上一节,介绍了显著性校验的基本概念, 显著性检验从统计学的角度来解释差异产生的概率,这与数值的差异有根本的区别。常用的显著性检验的方法有方程分析(F校验)、t校验、卡方校验等等。本节将着重介绍F检验。方差分析方差分析(Analysis of variance),也叫F校验,用来检验多组样本的均值是否有显著差异,它有四个假设前提 随机性:样本是随机产生的 独立性:不同组样本之间是相互独立的 正态分布性:同一组样本的数据来自于同一正太分布 方差齐性:不同组正太分布..原创 2020-07-09 20:20:02 · 1992 阅读 · 0 评论 -
显著性校验与A/B测试
最近在极客时间学习“程序员的数学基础课”,整理学习笔记如下。机器学习有不同的算法,如朴素贝叶斯、决策树等,每种算法都会产生不同的效果,如何量化地评价各种算法的结果?互联网公司一般通过用户的在线行为来测试算法的效果,这种测试有一个问题是如何排除非测试因素的干扰。图片来源极客时间“程序员的数学基础课”如上图转换率在2016年1月12日有一个突增,假如当天上线了一个新的算法A,那转化率一定是上线的新算法A造成的吗?现实结果是不一定,2016年1月12日可能是有一个促销打折活动导致转化率上升。假原创 2020-06-26 16:19:21 · 2727 阅读 · 0 评论