自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(70)
  • 收藏
  • 关注

转载 语言识别基础知识及概念

  ...

2019-07-30 14:24:04 269

转载 kaldi中文语音识别(1)

...

2019-07-30 13:56:33 2105 1

转载 语言模型(二) 评估和类别

一、Evaluation1、  熵entropyl   熵(entropy)又称自信息,self-information描述一个随机变量的不确定性的数量,熵越大,不确定性越大,正确估计其值的可能性越小。越不确定的随机变量越需要大的信息量以确定其值。p(x) 表示x 的分布概率l   相对熵(relativeentropy )又称KL 距离,Kullba...

2019-07-30 11:54:51 462

转载 语言模型(一) 工具和使用简介

一、常用工具1.      Kenlm https://kheafield.com/code/kenlm/C++版本,最大特点是速度快、占用内存少2.      Srilm http://www.speech.sri.com/projects/srilm/SRI(S...

2019-07-30 11:50:06 924

转载 语音识别评估标准

在语音识别中,常用的评估标准为词错误率WER,WER计算方式为:为了使识别出来的词序列和标准的词序列之间保持一致,需要进行替换,删除,或者插入某些词,这些插入,替...

2019-07-30 11:31:25 3431

转载 数据堂面试

一、语义消歧 版权声明:本文为博主习伏众神原创文章,转载请注明转自习伏众神。</font><font style="vertical-align: inherit;">https://blog.csdn...

2019-07-29 08:54:08 208

转载 Floyd算法

https://blog.youkuaiyun.com/qq_35644234/article/details/60875818

2019-07-24 22:30:53 104

原创 面试总结

广州实地一、如何进行数据的清洗二、朴素贝叶斯如何进行垃圾邮件的分类三、一直随机往增加一些数,如何选出其中最大的五个数

2019-07-20 09:17:49 94

原创 第二次面试

Q1:你选的神经网络有几层,各层有什么用途?Q2:清华大学语料分析库有多大?Q3:写一下朴素贝叶斯公式?Q4:在这个项目中你负责哪一块?Q5:这个项目中遇到的最大的问题是什么?Q6:SVM软间隔和硬间隔?...

2019-07-15 18:36:28 167

原创 唐|01python数据分析与机器学习|26使用Gensim库构造中文维基百科数据词向量模型

gensim的使用from gensim.models import word2vec #掉包 sentences = [s.split() for s in raw_sentences] #分词model = word2vec.Word2Vec(sentences,min_count=1) #引包min_count...

2019-07-11 21:31:52 161

原创 唐|01python数据分析与机器学习|25自然语言处理词向量模型-word2vec

语言模型:机器翻译、拼写纠错(基于概率值的语言模型)N-gram模型词向量one-hot(无意义)word2vec神经网络模型多一个投影层:(n-1)*m首尾拼接起来的大向量基于神经网络模型求解词向量...

2019-07-11 15:02:31 157

原创 唐|01python数据分析与机器学习实战|视频课程|文本分析

1.文本分析与关键字停用词-----哈工大停用词表Tf-idf-----关键词提取(词频,逆文档频率)TF-IDF=词频(TF)*逆文档频率(IDF)相似度(去除重复、停用词)句子----分词-----语料库------词频向量------余弦相似度文本向量化的表示:类one-hot,ngram_range,TF-idf...

2019-07-10 21:25:13 329

原创 牛客模拟面试

1.朴素贝叶斯法的要求是什么?朴素贝叶斯面试总结朴素贝叶斯与LR的区别?简单来说:朴素贝叶斯是生成模型,根据已有样本进行贝叶斯估计学习出先验概率P(Y)和条件概率P(X|Y),进而求出联合分布概率P(XY),最后利用贝叶斯定理求解P(Y|X), 而LR是判别模型,根据极大化对数似然函数直接求出条件概率P(Y|X);朴素贝叶斯是基于很强的条件独立假设(在已知分类Y的条件下,各个特征变量取值是相...

2019-07-10 19:18:24 692

转载 二叉树的常见问题及其解决程序

原 二叉树的常见问题及其解决程序 ...

2019-07-10 09:33:04 264

原创 面试总结1

1.假设一段公路上,1小时内有汽车经过的概率为96%,那么,30分钟内有汽车经过的概率为?答:一小时有车的概率 = 1 - 一小时没车的概率 = 1 - 两个半小时都没车的概率 = 1 - (1 - 半小时有车的概率)^21-(1-x)^2=0.96x = 0.82.快排的时间复杂度3.检查python程序中括号的配对情况答:python利用堆栈进行括号匹配由于存在多种不同的括号对,...

2019-07-10 08:49:48 219

原创 百度面试

https://blog.youkuaiyun.com/luoweifu/article/details/12685169

2019-07-08 19:34:59 101

转载 房价预测

https://segmentfault.com/a/1190000015440560

2019-07-05 15:50:33 695

转载 快排

https://www.jianshu.com/p/7631d95fdb0b × 广告 广告 理解快速排序算法 <!-- 作者区域 --> <div class="author"> <a class="avatar" h...

2019-07-04 10:57:17 528

转载 LSTM与情感分类

...

2019-07-03 19:59:45 968

转载 数据清洗

...

2019-07-03 19:56:53 437

原创 AL自然语言处理体验课

目录一,自然语言处理1.1自然语言处理概述1.2自然语言处理意义与难点二.自然语言处理的核心问题与主要应用2.1自然语言处理核心问题2.2主要应用3自然语言处理:机器学习vs深度学习3.1 NPL 机器学习与深度学习方法3.2典型应用的解决效果4.NPL应用:基于评论情感分析的酒店挑选4.1基础知识及项目背景4.2机器学习解决方案代码详解...

2019-07-02 15:53:00 255

原创 Apriori算法

一.关联分析概述1.关联分析关联分析是一种在大规模数据集中寻找有趣关系的非监督学习算法。形式:频繁项集------经常出现在一块的物品的集合关联规则-----暗示两种物品之间可能存在很强的关系2.频繁项集的评估标准2.1 支持度2.2 置信度2.3 提升度3.关联规则的发现二. Apriori算法原理先验原理:如果一个项集是频繁的,则它的所有子集一定也是频繁的...

2019-07-02 10:52:46 136

原创 数据清洗

1.什么是数据清洗?2.数据清洗的流程有哪些?3.常用的数据清洗方法?4.去哪儿网文本数据清洗案例什么是数据清洗

2019-07-01 11:23:48 154

转载 把文字转化问词向量

为把人们所理解的自然语言 让 计算机也能够 认识并且操作,需要将人的语言(即文字)转换成计算机的语言(即数字)我们将其称为词向量。把文字转换成词向量有多种编码方式:大致分为两类,离散表示和分布式表示。离散表示即 无法衡量词与词之间的关系,即在编...

2019-06-26 23:52:33 4211

原创 词嵌入

词嵌入是一类将词向量化的模型的统称,核心思想是将每个词都映射到低维空间上的稠密向量**one-hot:**用one-hot来表示词典里的每个单词,每个词其对应的位置为1,其余为0缺点:任何两个one-hot的向量内机为0,无法知道他们的联系和差别特征化:来表示每个词,学习这些词的特征和数值嵌入矩阵在嵌入矩阵中所对应的某一列为这个词的one-hot...

2019-06-26 23:50:19 573

原创 词嵌入

词嵌入-----让算法自动的理解一些类似的词(给一些名词起他上一层的名字,看他们到上一层名字的距离)one-hot的缺点:任何两个one-hot的向量内机为0,无法知道他们的联系和差别,故用特征化的表示来表示每个词,学习这些词的特征和数值词嵌入可视化------把高维的词嵌入数据嵌入到一个二维空间里,这样就可以可视化了。常用的可视化算法是t-SNEs算法使用词嵌入做迁移学习①:从大量的文本...

2019-06-26 23:25:22 346

原创 解决循环神经网络中梯度消失

解决单复数问题—网络深度太深,后面层的输出误差很难影响前面层的计算-----梯度消失导数值很大或者出现NaN-----梯度爆炸-----梯度修剪解决梯度消失的方法1.GRU单元2. 长短时间记忆(LSTM)GRU的优点:更加简单的模型,更容易创建一个更大的网络,只有两个门,在计算性能上运行的更快,可以扩大模型的规模LSTM优点:更加灵活和强大,因为有三个门...

2019-06-26 20:38:56 745

原创 语言模型的构建和采样

语言模型会告诉某个特定的句子出现的概率1.建立语言模型①需要一个训练集,包含很大的英文文本语料库步骤:句子标记化------one hot向量------末尾加标记(EOS)-----UNK代表未知词的标志②用RNN来构建这些序列的概率模型上一个输出是下一时间步的输入初始值都为0第一个表示第一个输出值的概率,后面表示的是其前面发生的情况下其在发生的概率2.对新序列采样在训练一个...

2019-06-26 19:43:07 562

原创 NPL-自然语言处理-循环神经网络

1.one-hot表示一个句子里面单个的词,第一件事是做一张词表,有时也称作词典,用one-hot来表示词典里面的每个单词2.循环神经网络标准神经网络的不好:①输入输出长度不同;②不能共享从文本的不同位置上学到的特征循环神经网络:①在每一时间步中,循环神经网络传递一个激活值到下一时间步中用于计算;②循环神经网络是从左向右扫描数据,同时每个时间步的参数也是共享的,下图表示的为参数。缺点...

2019-06-26 18:49:04 1532

原创 树回归

当数据集特征很多且特征之间关系复杂时,构建全局模型就十分困难,而且很多非线性的问题,不可能使用线性模型来拟合数据把数据集切分—大而化小的切分思想(把数据集切分成很多易于建模的数据,然后再用线性模型来建模,如果首次切分后仍难以拟合线性模型,那就继续切分,在这种切分方式下,树结构和回归法便十分有用)一、回顾决策树ID3:每次选取当前最佳的特征来分割数据,并按照该特征的所有可能取值来切分。也就是说...

2019-06-25 20:51:34 128

原创 线性回归

一.什么是回归小姐姐男友汽车功率=0.0015男友年薪-0.99收听公共广播时间,这就是回归方程。其中0.0015和-0.99称作回归系数,求这些回归系数的过程就是回归。二.线性回归1.简单线性回归2.多元线性回归3.线性回归的损失函数补充:三.局部加权线性回归为了解决线性回归可能出现的欠拟合现象,采用局部加权线性回归。思想:给带预测点附近的每个点赋予一定的权重,然后按照简单...

2019-06-25 16:06:27 164

转载 回归问题中的

回归评价指标MSE、RMSE、MAE、R-Squared <!-- 作者区域 --> <div class="author"> <a class="avatar" href="/u/9eb5bcacf548"> <img src="//upload.jianshu.io/users/upload...

2019-06-24 22:46:30 129

转载 回归的评价指标

回归评价指标MSE、RMSE、MAE、R-Squared <!-- 作者区域 --> <div class="author"> <a class="avatar" href="/u/9eb5bcacf548"> <img src="//upload.jianshu.io/users/upload...

2019-06-24 16:50:53 749

转载 ROC曲线与AUC面积

https://blog.youkuaiyun.com/Orange_Spotty_Cat/article/details/82425113

2019-06-24 16:30:00 343

转载 混淆矩阵、ROC曲线-----分类问题的评价体系

混淆矩阵 原 4.4.2分类模型评判指标(一) - 混淆矩阵(Confusion Matrix) 2018年05月31日 15:16:19 Orange_Spotty_Ca...

2019-06-24 16:03:53 543

原创 AdaBoost元算法

1.集成学习

2019-06-21 20:25:38 78

转载 SMO算法

转载请注明出处:http://blog.youkuaiyun.com/luoshixian099/article/details/51227754 优快云−勿在浮沙筑高台优快云−勿在浮沙筑高台 本文力求简化SMO的算法思想,毕竟自己理解有限,无奈还是要拿一堆公式推来推去...

2019-06-21 19:51:35 626

原创 SVM---支持向量机

一:什么是SVM?支持向量机是用于分类的一种算法,也属于有监督学习的范畴。SVM就是试图把棍放在最佳位置,好让在棍的两边有尽可能大的间隙例子:大侠救心上人球[data]、棍子[classifier]、最大间隙trick[optimization]、拍桌子[kernelling](核函数) 、纸[hyperplane]超平面想要让数据飞起需要的东西就是核函数,用于切分小球的纸,就是超平面。...

2019-06-21 19:50:53 174

原创 Logistic回归

我也不知道啊

2019-06-21 14:56:41 255

原创 朴素贝叶斯

2019-06-20 19:14:55 98

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除