- 博客(14)
- 资源 (2)
- 收藏
- 关注
原创 深度学习资料
Python Numpy教程 https://zhuanlan.zhihu.com/p/20878530?refer=intelligentunit斯坦福深度学习视频(cs231n) http://cs231n.stanford.edu/: 网易公开课有中文字幕: http://study.163.com/course/courseMain.htm?courseId=1003223001持
2017-06-30 16:24:59
423
原创 多元正态分布的后验采样
均值和方差未知的多元正态分布的后验Multivariate normal with unknown mean and variance从后验分布中采样均值mu和方差Sigma1. 均值和方差未知的多元正态分布的后验(Multivariate normal with unknown mean and variance)\quad假设有N个观测值{xi|i=1,2,...,N}\{x_{i}|i=1,
2016-12-09 10:23:03
5824
原创 如何使用Apache Commons从多元正态分布采样随机样本
首先得下载Apache Commons Math以及Apache Commons RNG两个包。然后查看Math包的API文档,可以从里面找到类MultivariateNormalDistribution,如下所示: 在往下看可以看到该类的构造函数以及几个方法: 第一个画圈的位置就是该类的构造方法,可以很明显看到包含两个参数,一个是该多元正态分布的均值向量,第二个是该多元正态分布的协方
2016-12-06 16:47:17
2396
原创 多标签分类的评价指标
\quad当前,已有大量的有关多标签分类的评价指标(evaluation metrics)。一般而言,可以分为两大类:(1)一是称为document-pivoted(也可以称为instance-based或者example-based),顾名思义,就是为每个测试文档预测标签;(2)第二类是label-pivoted(也成为label-based),这一类主要聚焦于为每个标签预测文档。每一类又可以包含
2016-11-29 10:33:42
21448
原创 关于LDA模型中超参数的抽样
LDA模型中每个单词的主题ziz_i的Gibbs抽样公式关于超参数的MHMetropolis-Hastings采样LDA模型中每个单词的主题ziz_{i}的Gibbs抽样公式p(zi=k|z⃗ −i,wi=t,w⃗ −i)=n(t)k,−i+βt∑Vt=1[n(t)k,−i+βt]⋅n(k)m,−i+αk[∑Kk=1n(k)m+αk]−1p(z_{i}=k|\vec{z}_{-i},w_{i}=t
2016-11-25 11:14:34
2714
原创 Correlated Topic model 的Gibbs sampling
关于经典LDA的thetaCorrelated Topic Model中的thetaCTM的Gibbs sampling1 CTM中关于主题zz的采样2 CTM中关于文档主题分布参数eta的后验分布3 CTM中关于文档主题分布参数eta的Gibbs sampling4 CTM中对先验分布mu和Sigma的采样1.关于经典LDA的θ\theta自从David Blei 2003的一篇Lat
2016-11-24 15:05:58
1131
原创 关于多元正态分布的条件概率密度
多元正态分布多元正态分布的条件密度多元正态分布多元正态分布的密度函数如下 : fx(x1,...xn)=1(2π)k√|Σ|exp(−12(x−μ)TΣ−1(x−μ))f_{x}(x_{1},...x_{n})=\frac{1}{\sqrt{(2\pi)^{k}}|\Sigma|}exp(-\frac{1}{2}(x-\mu)^{T}\Sigma^{-1}(x-\mu)) (1) 其对应的矩母
2016-11-24 14:54:59
25048
1
转载 (转) Java多层翻页网络爬虫实战(以搜房网为例)
目录分析所要爬取的数据爬虫框架modelmainutilparsedb数据库操作爬虫如何实现翻页地址拼接网络爬虫如何解决主键重复问题未经允许,禁止将其复制下来上传到百度文库等平台。如有转载请注明本文博客的地址(链接)分析所要爬取的数据在爬虫之前需要分析自己需要爬的数据。本文爬取的是所有http://esf.hf.fang.com/链接对应的房源的id,title,url。如下图所示
2016-10-24 16:06:56
744
原创 百度机器学习/数据挖掘面试题K-means
昨天去面试百度的机器学习岗位,基本上从头到尾就在探讨K-means的一些问题。可惜之前我也几乎不用K-means,只了解K-means的大概思路,没有深究过其中的两个重要问题:一是初始点的选择;二是K值的选择。当时被问到这个问题头炸了,然后面试官就说,那你就在你没看过的情况下想想这两个问题应该怎么解决。就这两个问题跟面试官探讨了有三十多分钟。后来回来搜了一下答案,感觉自己当时答的还可以吧。不过感觉还
2016-09-23 09:33:35
3011
原创 逻辑回归的应用
这里也记录一下逻辑回归的应用。一个是在美团上的应用,主要作用是: 1、预测一个用户是否点击特定的商品 2、判断用户的性别 3、预测用户是否会购买给定的品类 4、判断一条评论是正面的还是负面的 类别 特征 用户 购买频次,浏览频次,时间,地理位置 … 品类 销量,购买用户,浏览用户 … 交叉 购买频次,浏览频次,购买间隔 …详情可以参考链接。第二个应用是腾讯AP
2016-09-12 08:54:46
2303
原创 关于EM算法的一些心得感悟
最近因为准备面试,重新看了下EM算法。觉得还是有了新的收获。大家都知道EM算法是用来解决含有隐含变量的不完全数据问题。一般博客中举的最多的例子就是男生女生身高的问题。具体为:假如有一批人,我们已经测得了每个人的身高,这些人中包含男生和女生,问如何分别求解得到男生和女生的身高分布的参数(一般假设都是服从正态分布)。前人的博客都说了因为log在求和符号的外面,一般的极大似然法没法求解这个问题,原因就在于
2016-09-09 11:38:19
980
原创 条件熵
熵的概念是由香农在信息论中提出的,目的是为了度量事件的不确定性。这是一个开创性的工作,把看不见摸不着的“不确定性”竟然量化了,这实在是太伟大了。现在,熵的概念已经应用到了各行各业,包括机器学习,人工智能。例如最大熵模型(maximum entropy model)的核心就是熵值的概念。 我们首先具体的通过符号定义一下熵的概念(以离散随机变量介绍)。假设离散随机变量XX的概率分布是P(X)P(X),
2016-09-01 11:23:14
1479
原创 关于SMO中b值的计算
我看到网上所有的博客在说关于b值的取值时,都是如果α1\alpha_{1}和α2\alpha_{2}都在界内(即大于0小于C),则bnew1=bnew2b_{1}^{new}=b_{2}^{new},如果其中一个在界内,则取对应的b值。如果二者都在界上,则bnew1b_{1}^{new}到bnew2b_{2}^{new}之间的所有值都符合条件,一般取(bnew1+bnew2)/2(b_{1}^{ne
2016-08-31 15:40:22
1026
原创 关于SVM中SMO算法第一个向量选择的问题
声明:原创博客,转载请注明出处在看李航编写的《统计学习方法》一书中第128页时,涉及到SMO算法中第一个变量的选择,然后作者指出选择不满足KKT条件的变量作为第一个变量,然后突然给出了如下三个KKT条件:αi=0⇔yig(xi)≥1(1)\begin{equation} \alpha_{i} = 0 \Leftrightarrow y_{i}g(x_{i})\geq 1 \qquad
2016-08-30 17:20:59
3268
2
Hierachical Dirichlet Process java版本的吉布斯抽样
2015-07-08
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人