hive+ml+dl+titles

本文介绍了机器学习中的判别模型和生成模型,包括线性回归、逻辑回归、SVM等判别模型,以及朴素贝叶斯、HMM、LDA等生成模型。讨论了两种模型的原理和应用场景,如最大匹配法、最大概率法等中文分词技术,并提及了LDA在降维和分类中的优缺点。此外,还涉及了逻辑回归的数据适应性问题以及CRF模型在解决标记偏置问题上的优势。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

titles:

基本概念:
  1. 已知输入变量x,判别模型(discriminative model)通过求解条件概率分布P(y|x)或者直接计算y的值来预测y。生成模型(generative model)通过对观测值和标注数据计算联合概率分布P(x,y)来达到判定估算y的目的。
    常见的判别模型有线性回归(Linear Regression),逻辑回归(Logistic Regression),支持向量机(SVM), 传统神经网络(Traditional Neural Networks),线性判别分析(Linear Discriminative Analysis),条件随机场(Conditional Random Field);
    常见的生成模型有朴素贝叶斯(Naive Bayes), 隐马尔科夫模型(HMM),贝叶斯网络(Bayesian Networks)和隐含狄利克雷分布(Latent Dirichlet Allocation
  2. 中文分词的基本方法: 基于语法规则的方法、基于词典的方法和基于统计的方法。
    基于语法规则的分词法-只有概念无应用。
    基于词典的方法:最大匹配法,最大概率法,最短路径法等。(最少切分)
    最大匹配法指的是按照一定顺序选取字符串中的若干个字当做一个词,去词典中查找。根据扫描方式可细分为:正向最大匹配,反向最大匹配,双向最大匹配,最小切分。
    最大概率法指的是一个待切分的汉字串可能包含多种分词结果,将其中概率最大的那个作为该字串的分词结果。
    最短路径法指的是在词图上选择一条词数最少的路径。
    基于统计的分词法的基本原理是根据字符串在语料库中出现的统计频率来决定其是否构成词。词是字的组合,相邻的字同时出现的次数越多, 就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映它们成为词的可信度。常用的方法有HMM(隐马尔科夫模型),MAXENT(最大熵模型),MEMM(最大熵隐马尔科夫模型),CRF(条件随机场)。
  3. HMM模型是对转移概率和表现概率直接建模,统计共现概率。而MEMM模型是对转移概率和表现概率建立联合概率,统计时统计的是条件概率。CRF是在给定需要标记的观察序列的条件下,计算整个标记序列的联合概率分布,而不是在给定当前状态条件下,定义下一个状态的状态分布。MEMM容易陷入局部最优,是因为MEMM只在局部做归一化。CRF模型中,统计了全局概率,在做归一化时,考虑了数据在全局的分布,而不是仅仅在局部归一化,这样就解决了MEMM中的标记偏置的问题。
    CRF没有HMM那样严格的独立性假设条件,因而可以容纳任意的上下文信息,特征设计灵活。CRF需要训练的参数更多,与MEMM和HMM相比,它存在训练代价大、复杂度高的缺点。
  4. 8、以下哪种方法能最佳地适应逻辑回归中的数据?
    ALeast Square Error-最小二乘方差
    BMaximum Likelihood-最大似然估计
    CJaccard distance-杰卡德距离
    DBoth A and B
    正确答案是: B
    Logistic Regression使用可能的最大似然估值来测试逻辑回归过程。
  5. LDA算法既可以用来降维,又可以用来分类,但是目前来说,主要还是用于降维。在我们进行图像识别图像识别相关的数据分析时,LDA是一个有力的工具。下面总结下LDA算法的优缺点。
    LDA算法的主要优点有:
    1)在降维过程中可以使用类别的先验知识经验,而像PCA这样的无监督学习则无法使用类别先验知识。
    2)LDA在样本分类信息依赖均值而不是方差的时候,比PCA之类的算法较优。
    LDA算法的主要缺点有:
    1)LDA不适合对非高斯分布样本进行降维,PCA也有这个问题。
    2)LDA降维最多降到类别数k-1的维数,如果我们降维的维度大于k-1,则不能使用LDA。当然目前有一些LDA的进化版算法可以绕过这个问题。
    3)LDA在样本分类信息依赖方差而不是均值的时候,降维效果不好。
    4)LDA可能过度拟合数据。
    LDA用于降维,和PCA有很多相同,也有很多不同的地方,因此值得好好的比较一下两者的降维异同点。
    首先我们看看相同点:
    1)两者均可以对数据进行降维。
    2)两者在降维时均使用了矩阵特征分解的思想。
    3)两者都假设数据符合高斯分布。
    我们接着看看不同点:
    1)LDA是有监督的降维方法,而PCA是无监督的降维方法
    2)LDA降维最多降到类别数k-1的维数,而PCA没有这个限制。
    3)LDA除了可以用于降维,还可以用于分类。
    4)LDA选择分类性能最好的投影方向,而PCA选择样本点投影具有最大方差的方向。
  6. List item
其他内容:

dl:

基于cnn的minist识别:
  1. pip install tensorflow==1.14.0 -i http://mirrors.aliyun.com/pypi/simple/ --trusted-host mirrors.aliyun.com pip阿里云临时源

hive:


ml:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值