shenzhiping12-优快云博客

转载语言模型（二）评估和类别

一、Evaluation1、熵entropyl 熵（entropy）又称自信息，self-information描述一个随机变量的不确定性的数量，熵越大，不确定性越大，正确估计其值的可能性越小。越不确定的随机变量越需要大的信息量以确定其值。p(x) 表示x 的分布概率l 相对熵（relativeentropy ）又称KL 距离，Kullba...

2019-07-30 11:54:51 531

转载语言模型（一）工具和使用简介

一、常用工具1. Kenlm https://kheafield.com/code/kenlm/C++版本，最大特点是速度快、占用内存少2. Srilm http://www.speech.sri.com/projects/srilm/SRI（S...

2019-07-30 11:50:06 985

转载语音识别评估标准

在语音识别中，常用的评估标准为词错误率WER，WER计算方式为：为了使识别出来的词序列和标准的词序列之间保持一致，需要进行替换，删除，或者插入某些词，这些插入，替...

2019-07-30 11:31:25 3617

转载 Floyd算法

https://blog.youkuaiyun.com/qq_35644234/article/details/60875818

2019-07-24 22:30:53 133

原创面试总结

广州实地一、如何进行数据的清洗二、朴素贝叶斯如何进行垃圾邮件的分类三、一直随机往增加一些数，如何选出其中最大的五个数

2019-07-20 09:17:49 115

原创第二次面试

Q1：你选的神经网络有几层，各层有什么用途？Q2：清华大学语料分析库有多大？Q3：写一下朴素贝叶斯公式？Q4：在这个项目中你负责哪一块？Q5：这个项目中遇到的最大的问题是什么？Q6：SVM软间隔和硬间隔？...

2019-07-15 18:36:28 188

原创唐|01python数据分析与机器学习|26使用Gensim库构造中文维基百科数据词向量模型

gensim的使用from gensim.models import word2vec #掉包 sentences = [s.split() for s in raw_sentences] #分词model = word2vec.Word2Vec(sentences,min_count=1) #引包min_count...

2019-07-11 21:31:52 193

原创唐|01python数据分析与机器学习|25自然语言处理词向量模型-word2vec

语言模型：机器翻译、拼写纠错（基于概率值的语言模型）N-gram模型词向量one-hot（无意义）word2vec神经网络模型多一个投影层：（n-1）*m首尾拼接起来的大向量基于神经网络模型求解词向量...

2019-07-11 15:02:31 231

原创唐|01python数据分析与机器学习实战|视频课程|文本分析

1.文本分析与关键字停用词-----哈工大停用词表Tf-idf-----关键词提取（词频，逆文档频率）TF-IDF=词频（TF）*逆文档频率（IDF）相似度（去除重复、停用词）句子----分词-----语料库------词频向量------余弦相似度文本向量化的表示：类one-hot，ngram_range,TF-idf...

2019-07-10 21:25:13 356

原创牛客模拟面试

1.朴素贝叶斯法的要求是什么？朴素贝叶斯面试总结朴素贝叶斯与LR的区别？简单来说：朴素贝叶斯是生成模型，根据已有样本进行贝叶斯估计学习出先验概率P(Y)和条件概率P(X|Y)，进而求出联合分布概率P(XY),最后利用贝叶斯定理求解P(Y|X)，而LR是判别模型，根据极大化对数似然函数直接求出条件概率P(Y|X)；朴素贝叶斯是基于很强的条件独立假设（在已知分类Y的条件下，各个特征变量取值是相...

2019-07-10 19:18:24 724

转载二叉树的常见问题及其解决程序

原二叉树的常见问题及其解决程序 ...

2019-07-10 09:33:04 287

原创面试总结1

1.假设一段公路上，1小时内有汽车经过的概率为96%，那么，30分钟内有汽车经过的概率为?答：一小时有车的概率 = 1 - 一小时没车的概率 = 1 - 两个半小时都没车的概率 = 1 - （1 - 半小时有车的概率）^21-(1-x)^2=0.96x = 0.82.快排的时间复杂度3.检查python程序中括号的配对情况答：python利用堆栈进行括号匹配由于存在多种不同的括号对，...

2019-07-10 08:49:48 262

原创百度面试

https://blog.youkuaiyun.com/luoweifu/article/details/12685169

2019-07-08 19:34:59 129

转载房价预测

https://segmentfault.com/a/1190000015440560

2019-07-05 15:50:33 731

转载快排

https://www.jianshu.com/p/7631d95fdb0b × 广告广告理解快速排序算法  <div class="author"> <a class="avatar" h...

2019-07-04 10:57:17 560

原创 AL自然语言处理体验课

目录一，自然语言处理1.1自然语言处理概述1.2自然语言处理意义与难点二.自然语言处理的核心问题与主要应用2.1自然语言处理核心问题2.2主要应用3自然语言处理：机器学习vs深度学习3.1 NPL 机器学习与深度学习方法3.2典型应用的解决效果4.NPL应用：基于评论情感分析的酒店挑选4.1基础知识及项目背景4.2机器学习解决方案代码详解...

2019-07-02 15:53:00 270

原创 Apriori算法

一.关联分析概述1.关联分析关联分析是一种在大规模数据集中寻找有趣关系的非监督学习算法。形式：频繁项集------经常出现在一块的物品的集合关联规则-----暗示两种物品之间可能存在很强的关系2.频繁项集的评估标准2.1 支持度2.2 置信度2.3 提升度3.关联规则的发现二. Apriori算法原理先验原理：如果一个项集是频繁的，则它的所有子集一定也是频繁的...

2019-07-02 10:52:46 161

原创数据清洗

1.什么是数据清洗？2.数据清洗的流程有哪些？3.常用的数据清洗方法？4.去哪儿网文本数据清洗案例什么是数据清洗

2019-07-01 11:23:48 170

转载把文字转化问词向量

为把人们所理解的自然语言让计算机也能够认识并且操作，需要将人的语言（即文字）转换成计算机的语言（即数字）我们将其称为词向量。把文字转换成词向量有多种编码方式：大致分为两类，离散表示和分布式表示。离散表示即无法衡量词与词之间的关系，即在编...

2019-06-26 23:52:33 4312

原创词嵌入

词嵌入是一类将词向量化的模型的统称，核心思想是将每个词都映射到低维空间上的稠密向量**one-hot：**用one-hot来表示词典里的每个单词，每个词其对应的位置为1，其余为0缺点:任何两个one-hot的向量内机为0，无法知道他们的联系和差别特征化：来表示每个词，学习这些词的特征和数值嵌入矩阵在嵌入矩阵中所对应的某一列为这个词的one-hot...

2019-06-26 23:50:19 682

原创词嵌入

词嵌入-----让算法自动的理解一些类似的词（给一些名词起他上一层的名字，看他们到上一层名字的距离）one-hot的缺点:任何两个one-hot的向量内机为0，无法知道他们的联系和差别，故用特征化的表示来表示每个词，学习这些词的特征和数值词嵌入可视化------把高维的词嵌入数据嵌入到一个二维空间里，这样就可以可视化了。常用的可视化算法是t-SNEs算法使用词嵌入做迁移学习①：从大量的文本...

2019-06-26 23:25:22 376

原创解决循环神经网络中梯度消失

解决单复数问题—网络深度太深，后面层的输出误差很难影响前面层的计算-----梯度消失导数值很大或者出现NaN-----梯度爆炸-----梯度修剪解决梯度消失的方法1.GRU单元2. 长短时间记忆（LSTM）GRU的优点：更加简单的模型，更容易创建一个更大的网络，只有两个门，在计算性能上运行的更快，可以扩大模型的规模LSTM优点：更加灵活和强大，因为有三个门...

2019-06-26 20:38:56 783

原创语言模型的构建和采样

语言模型会告诉某个特定的句子出现的概率1.建立语言模型①需要一个训练集，包含很大的英文文本语料库步骤：句子标记化------one hot向量------末尾加标记（EOS）-----UNK代表未知词的标志②用RNN来构建这些序列的概率模型上一个输出是下一时间步的输入初始值都为0第一个表示第一个输出值的概率，后面表示的是其前面发生的情况下其在发生的概率2.对新序列采样在训练一个...

2019-06-26 19:43:07 593

原创 NPL-自然语言处理-循环神经网络

1.one-hot表示一个句子里面单个的词，第一件事是做一张词表，有时也称作词典，用one-hot来表示词典里面的每个单词2.循环神经网络标准神经网络的不好：①输入输出长度不同；②不能共享从文本的不同位置上学到的特征循环神经网络：①在每一时间步中，循环神经网络传递一个激活值到下一时间步中用于计算；②循环神经网络是从左向右扫描数据，同时每个时间步的参数也是共享的，下图表示的为参数。缺点...

2019-06-26 18:49:04 1637

当数据集特征很多且特征之间关系复杂时，构建全局模型就十分困难，而且很多非线性的问题，不可能使用线性模型来拟合数据把数据集切分—大而化小的切分思想（把数据集切分成很多易于建模的数据，然后再用线性模型来建模，如果首次切分后仍难以拟合线性模型，那就继续切分，在这种切分方式下，树结构和回归法便十分有用）一、回顾决策树ID3:每次选取当前最佳的特征来分割数据，并按照该特征的所有可能取值来切分。也就是说...

2019-06-25 20:51:34 144

原创线性回归

一.什么是回归小姐姐男友汽车功率=0.0015男友年薪-0.99收听公共广播时间，这就是回归方程。其中0.0015和-0.99称作回归系数，求这些回归系数的过程就是回归。二.线性回归1.简单线性回归2.多元线性回归3.线性回归的损失函数补充：三.局部加权线性回归为了解决线性回归可能出现的欠拟合现象，采用局部加权线性回归。思想：给带预测点附近的每个点赋予一定的权重，然后按照简单...

2019-06-25 16:06:27 227

转载回归问题中的

回归评价指标MSE、RMSE、MAE、R-Squared  <div class="author"> <a class="avatar" href="/u/9eb5bcacf548"> <img src="//upload.jianshu.io/users/upload...

2019-06-24 22:46:30 147

转载回归的评价指标

回归评价指标MSE、RMSE、MAE、R-Squared  <div class="author"> <a class="avatar" href="/u/9eb5bcacf548"> <img src="//upload.jianshu.io/users/upload...

2019-06-24 16:50:53 768

转载 ROC曲线与AUC面积

https://blog.youkuaiyun.com/Orange_Spotty_Cat/article/details/82425113

2019-06-24 16:30:00 371

转载混淆矩阵、ROC曲线-----分类问题的评价体系

混淆矩阵原 4.4.2分类模型评判指标（一） - 混淆矩阵(Confusion Matrix) 2018年05月31日 15:16:19 Orange_Spotty_Ca...

2019-06-24 16:03:53 563

原创 AdaBoost元算法

1.集成学习

2019-06-21 20:25:38 97

转载 SMO算法

转载请注明出处：http://blog.youkuaiyun.com/luoshixian099/article/details/51227754 优快云−勿在浮沙筑高台优快云−勿在浮沙筑高台本文力求简化SMO的算法思想，毕竟自己理解有限，无奈还是要拿一堆公式推来推去...

2019-06-21 19:51:35 663

原创 SVM---支持向量机

一：什么是SVM？支持向量机是用于分类的一种算法，也属于有监督学习的范畴。SVM就是试图把棍放在最佳位置，好让在棍的两边有尽可能大的间隙例子：大侠救心上人球[data]、棍子[classifier]、最大间隙trick[optimization]、拍桌子[kernelling](核函数) 、纸[hyperplane]超平面想要让数据飞起需要的东西就是核函数，用于切分小球的纸，就是超平面。...

2019-06-21 19:50:53 210

原创 Logistic回归

我也不知道啊

2019-06-21 14:56:41 283

原创朴素贝叶斯

2019-06-20 19:14:55 118

空空如也

空空如也