
算法
zhupc_
徐州 中国矿业大学 目前关注计算机视觉领域,加速学习机器学习理论中....
展开
-
N-Gram模型简单介绍
N-Gram模型介绍本文将以实践的方式讨论N-Gram原理与其应用,我对N-Gram的接触来源与一个文本分类的实验,发现在原有的分词基础上引入N-Gram会提升分类准确率,因此在此讨论什么是N-Gram?它有什么作用?N-Gram常用的有三种:unigram,bigram,trigram 分别对应一元,二元,三元以“我想去成都吃火锅”为例,对其进行分词处理,得到下面的数组:[“我”,“想”...原创 2019-10-15 17:30:38 · 836 阅读 · 0 评论 -
Linear model training based on Spark
最开始接触分布式计算框架的是Hadoop中的MapReduce,虽然开发起来很复杂(Map与Reduce都要有相应的实现类)但是我也成功的启动了第一个“Hello word”(word count)。由于MapReduce每个步骤都要将中间结果存到磁盘中,而且会将job jar包分发到每个相关的Datanode上,虽然我的Txt文件不到1M,但是启动计算加上返回结果的时间大概也有40秒左右,还能忍...原创 2019-08-28 17:31:37 · 166 阅读 · 0 评论 -
说话人识别
你或许听过文本分类,图像识别,你听说过说话人识别吗?由于语音特征的特别,我们很难再入门的文章中看到关于语音的案例或者实验,本文主要介绍说话人识别的大体流程与原理,不在具体的细节公式上做过多讨论(因为实在是太复杂了)。声纹识别(Speaker Recognition)属于生物特征识别技术,是通过计算机利用人体所固有的生理特征或行为特征来进行个人身份鉴定。它也称说话人识别,是通过对收到的说话人语音信号...原创 2018-07-26 17:16:18 · 13446 阅读 · 1 评论 -
MLE&MAP--极大似然与最大后验概率
MLE&MAP概率常说的概率是指给定参数与模型后,预测即将发生的事件的可能性似然概率、似然函数统计学中,似然函数是一种关于统计模型参数的函数。给定输出x时,关于参数θ的似然函数为L(θ|x),似然函数在数值上等价与给定θ后的P(x|θ)P(x|θ)P(x|\theta)概率值相等,所以经常用P(x|θ)P(x|θ)P(x|θ)来表示似然函数,当给定θ的取值为(θ0)(θ...原创 2018-07-23 17:56:59 · 330 阅读 · 0 评论 -
3sigma模型案例分析彻底搞懂置信度与置信区间
学习机器学习算法时,经常会碰到数理统计中置信区间、置信度,虽然学习过相关课程,但是每次遇到它总是懵懵懂懂,似懂非懂。为了对这两个概念有深入的了解,这里做了相关的介绍。为了不老是纠缠于数理统计理论,或者学习了概念之后又无法应用的情况发生,这里以一个机器学习特征工程中常用的异常值检测算法--3sigma模型,来解释这两个概念,这样你既学会了一种异常值模型,又弄懂了这个概念,这个买卖划得来。异常值检测算...原创 2018-07-02 11:41:14 · 24222 阅读 · 0 评论 -
GDBT--分类预测篇
前面两篇GDBT–理解梯度提升原理篇与GDBT-回归预测篇已经详细介绍了GDBT的基本原理与思想,并且就回归预测举了一个例子。在文章的最后提到,GDBT不仅可以做回归也可以做分类,本文主要介绍GDBT分类的原理。与上篇的回归不同的在于使用的切割特征生成二叉树所用的判定函数不同,cart回归树,使用平方差损失来衡量当前特征的切割点是否为最佳切割点,cart分类树则使用基尼指数来衡量当前切割点是否为最...原创 2018-06-15 20:41:54 · 734 阅读 · 0 评论 -
GDBT--理解梯度提升原理篇
以决策树为基函数的提升方法称为提升树,提升树的模型可以表示为决策树的加法模型,基函数一般是cart回归树,GDBT是属于boosting的一员,与之对应的还有bagging,对于bagging中代表算法有随机森林,boosting中代表的有adaboost、xgboost等,目前数据挖掘用的比较多的还是boosting。本文目的是介绍学习boosting家族中的GDBT,所有对于bagging与b...原创 2018-05-30 10:06:11 · 5431 阅读 · 1 评论 -
深度学习之DenseNet
本文假设你已经对DenseNet的网络结构有一定的认识,不需要进行详细的结构介绍,本文重心在与如何利用DenseNet做迁移学习,以及作者是如何训练得到令人惊讶的结果的。卷积网络目前发展分为两类,以inception为典型的并行结构与ResNet为典型的串行结构,作者以一个新颖的思路发明了一种新的网络结构,比其他经典网络参数更少,更容易收敛。超参数DenseNet的作者认为ResNet的恒等函数与...原创 2018-06-04 22:36:37 · 4373 阅读 · 1 评论 -
GDBT-回归预测篇
在上一篇文章gdbt梯度提升原理,详细介绍了梯度、方向导数、为什么负梯度方向是函数下降最快方向,继而引出了GDBT的模型与优化原理。本篇将进一步以实例的方式演绎GDBT是如何进行回归预测的。...原创 2018-06-11 20:06:50 · 996 阅读 · 0 评论 -
最大熵模型教你如何撩妹
都说女人是善变的,做的每个决定都让我们男性同胞找不到任何根据,于是就有了女人的心思你别猜。但是很多时候我们需要知道她们在想什么,知己知彼才能百战不殆,少一点争吵,少一些矛盾,少一些猜疑。于是这个维护世界和平,共同创造和谐社会的责任就让我来承担一些吧!相信很多男同胞都会遇到这个问题:约女孩出来吃饭;这个问题看似简单,其实不然,吃饭要吃出水平,而且要结合女孩的心思,否则很容易让女孩觉得你不解风情,根本...原创 2018-05-06 16:59:14 · 376 阅读 · 0 评论 -
一文彻底搞懂01背包算法
0-1 背包问题:给定 n 种物品和一个容量为 C 的背包,物品 i 的重量是 wiwiw_i,其价值为 viviv_i 。问:应该如何选择装入背包的物品,使得装入背包中的物品的总价值最大?假设一个函数B是求解总价值的函数,有两个因变量n与C ;则我们的优化目标就变为 max.F(n,C,x).x∈0,1max.F(n,C,x).x∈0,1max.F(n,C,x) .x\in{{0,1}...原创 2018-04-20 10:58:05 · 24574 阅读 · 8 评论