
机器学习
文章平均质量分 95
村头陶员外
B站,小红书,抖音等平台搜索 “Forrest的数据科学站”
展开
-
数据科学中常用的应用统计知识
元素:数据中最小单位样本:大型数据集中一个子集总体:一个大型数据集NNN(或者nnn):一般用NNN表示总体规模,nnn表示样本规模随机抽样:从总体中抽取元素到子集中分层抽样:对总体分层,并在每层中做随机抽样样本偏差:样本对总体作出了错误的估计xˉ\bar{x}xˉμ\muμ样本统计量:对抽取自大规模总体中的样本做计算,所得到的一些度量值,比如均值,方差等统计量数据分布:单个元素在数据集上的频数分布。原创 2023-10-21 14:17:08 · 474 阅读 · 0 评论 -
机器学习-- CRF总结
本次要总结的是条件随机场(CRF)相关知识原创 2020-10-25 14:51:36 · 714 阅读 · 1 评论 -
深度学习-->NLP-->语言模型
从本篇博文开始总结NLPNLP相关知识。概率语言模型(StatisticalLanguageModel)(Statistical\ Language\ Model)p(sentence)=p(w1,w2,..,wn){p}(sentence)={p}({w}_{1},{w}_{2},..,{w}_{n})∑sentence∈Lp(sentence)=1\sum_{sentence\in L}^{原创 2017-10-12 18:17:11 · 984 阅读 · 0 评论 -
深度学习-->NLP-->NNLM简介
本篇博文将总结NLPNLP 里面的embeddingembedding,word2vectorword2vector,以及NNLMNNLM 的简介。embedding在一般任务中,我们总是非常自然的用特征值来表示一个词汇。但是,到底怎么样表示一个词,才是最合理的? 存储其ASCIIASCII 码表示,只会告诉你这个词是什么,并不能表示这个词真正的语义(也许你可以从这个词的词缀中获得该词的词性或其他属原创 2017-10-13 09:26:40 · 1730 阅读 · 0 评论 -
深度学习-->NLP-->Seq2Seq Learning(Encoder-Decoder,Beam Search,Attention)
之前总结过RNNLMRNNLM,是一个SequenceModel,其结构类似如下:这里面是一个一个的输出。我们如果以这种方式做机器翻译,每一个时刻输入一个词,相应的翻译一个词,显然这种一个一个单词的翻译方式不是很好,因为没有联系上下文进行翻译。我们希望先把一整句话喂给模型,然后模型在这一个整句的角度上来进翻译。这样翻译的效果更好。所以本篇博文要总结的是Seq2Seq Model,给出一个完整的句子,原创 2017-11-22 23:48:26 · 3246 阅读 · 0 评论 -
深度学习-->NLP-->RNNLM实现
本篇博文将详细总结RNNLMRNNLM 的原理以及如何在tensorflowtensorflow 上实现RNNLMRNNLM。我们要实现的网络结构如下:数据预处理创建vocabvocab分词:将句子中的每个单词以空格,符号分开,形成一个单词列表def blank_tokenizer(sentence): ##以空格对句子进行切分 return sentence.strip().spl原创 2017-11-20 17:40:39 · 4009 阅读 · 1 评论 -
论文分享--- >Learning to Rank: From Pairwise Approach to Listwise Approach
本篇博文分享和总结下论文Learning to Rank:From Pairwise Approach&nbsp原创 2018-09-20 19:39:42 · 3778 阅读 · 5 评论 -
机器学习-- > 隐马尔科夫模型(HMM)
本篇博文将详细总结隐马模型相关知识,理解该模型有一定的难度,在此浅薄的谈下自己的理解。HMM定义HMMHMMHMM 是关于时序的概率模型,描述由一个隐藏的马尔科夫链生成不可观测的状态随机序列,再由各个状态生成观测随机序列的过程。隐马尔科夫模型随机生成的状态随机序列,称为状态序列;每个状态生成一个观测,由此产生的观测随机序列,称为观测序列。序列的每个位置可看做是一个时刻。上图中的...原创 2020-10-10 10:36:14 · 1843 阅读 · 1 评论