LDA学习笔记3-抽样算法

抽样算法详解：LDA中的关键方法

最新推荐文章于 2024-03-11 21:53:04 发布

原创

最新推荐文章于 2024-03-11 21:53:04 发布 · 1.6k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习

本文详细介绍了三种抽样算法：基本方法、拒绝采样和重要性抽样。在机器学习中，这些方法用于从特定概率分布中抽样。拒绝采样通过参照分布实现，但高维情况下效率低；重要性抽样则通过加权样本近似期望，适用于Bayes网络。SIR算法结合了重要性抽样，生成满足目标分布的样本点。

抽样的基本问题是，对于给定目标概率p（x），如何抽取一组满足该分布的变量。在某些问题中可能还有别的约束条件，如iid等。

基本的抽样算法有

1.基本方法

基本思路通过函数变换将一个均匀分布转化为目标分布，缺点是，对函数性质有一定要求，性质较差的可能没有解析解或无法求解。

具体方法是，设原pdf为p（x），其对应的分布函数F（x）。设y=F（x），当y服从0~1的均匀分布，则反函数求x即满足对应pdf

几何说明如下图

2.rejection sampling

这个算法需要先找到一个能够抽样的参照分布（proposal distribution）q（x），使得p(x)<=M*q(x)对任意的x成立，其中M是一个常数

接下来，对q(x)进行抽样，按照均匀分布拒绝掉其中的某些点，剩余的点即满足分布p。

具体算法为

其几何解释为

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

windows2

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

机器学习笔记——30种常见机器学习算法简要汇总

haopinglianlian的博客

11-17

2889

本笔记介绍机器学习中常见的30种机器学习算法。

统计学习方法-潜在狄利克雷分配（LDA）-读书笔记

qq_38829768的博客

11-19

1930

统计学习方法-潜在狄利克雷分配（LDA）-读书笔记1、前言2、狄利克雷分布3、潜在迪利克雷分配模型3.1LDA和PLSA3.2生成过程 1、前言 LDA是文本集合的生成概率模型。假设每个文本由话题的一个多项分布表示，每个话题由单词的一个多项分布表示，特别假设文本的话题分布的先验分布是狄利克雷分布，话题的单词分布的先验分布也是狄利克雷分布。LDA能更好解决过拟合现象。 LDA模型是含有隐变量的概率图...

参与评论您还未登录，请先登录后发表或查看评论

Reservior Sampling (蓄水池抽样算法)

chouisbo的博客

02-13

2198

蓄水池抽样问题是，从一个长度为n的流中随机选取k个元素，使得n个元素中的每个元素都以相同的概率被采样到，通常情况下n是一个未知的很大的数目，而且无法将其载入主存中。

简单抽样算法介绍

东拉西扯到天明

11-13

484

我们要分析数据，当面对大量数据的时候，不可能每个数据都看一遍，就需要用到一些采样方法。通过采样得到的数据了解数据的规律和特征。 1、平均随机抽样有10000个数据，任意随机抽取100条。 2、分类抽样有10000个数据，有10个类目，每类1000条，可以考虑每个种类抽取50条。 3、分类、按照百分比抽样如果有10000个数据。假如是身高数据...

最全随机抽样算法(从N个数中抽取M个等)集合

热门推荐

bitcarmanlee的博客

10-11

3万+

1.从N个数中等概率抽取M个数从N个样本中等概率抽取M个样本(M&amp;lt;N)是常见的需求。现在我们以一个数组来模拟样本，看看怎么实现这个算法。最容易想到的方法，肯定就是直接等概率抽取。具体做法如下：每次都随机在[0, N-1](假设第一个样本d的标号为0)之间抽取一个数，并且与之前的数相比较。如果与前面生成的随机数相同，则继续随机生成，直到生成一个与之前所有生成数不同的数。如果不相同，则将该随...

【算法34】蓄水池抽样算法 (Reservoir Sampling Algorithm)

weixin_30810583的博客

07-14

351

蓄水池抽样算法简介蓄水池抽样算法随机算法的一种，用来从 N 个样本中随机选择 K 个样本，其中 N 非常大（以至于 N 个样本不能同时放入内存）或者 N 是一个未知数。其时间复杂度为 O(N),包含下列步骤 (假设有一维数组 S, 长度未知，需要从中随机选择 k 个元素, 数组下标从 1 开始), 伪代码如下: 1 array R[k]; // result 2 intege...

抽样算法

Sigh～

06-15

756

最近涉及到抽样的算法，记录下：蓄水池算法看这边blog差不多了： http://blog.youkuaiyun.com/huagong_adu/article/details/7619665 大意就是，先抽m个出来，然后对于不知道终结在哪里的流，依次考虑 ki/kj，是否进行替代根据公式，可以算得每个样本的概率一致 data stream

社区发现 SSN-LDA算法 学习笔记

蓝砂石的博客

11-30

1486

SSN-LDA(Simple Social Network-LDA)是一种基于潜在狄利克雷分配的分层贝叶斯算法，在SSN-LDA中，社区被建模为图形模型中的潜在变量，并被定义为社会参与者空间上的分布。SSN-线性判别分析的优点是它只需要拓扑信息作为输入。该模型在两个研究合作网络上进行了评估:CiteSeer和NanoSCI。实验结果表明，该方法有望在大规模网络中发现社区结构。与以往的社区发现研究不同，用基于分层贝叶斯网络的方法，从社会网络中发现概率社区。这样，每个社会行动者都为社会中的每个社区贡献了一份

NLP基础知识（语法语义、LDA、N-gram、词嵌入）

C语言/数据结构/数学建模/深度学习/生物信息

05-29

1507

来自Manolis Kellis教授（MIT计算生物学主任）的课《人工智能与机器学习》。本文是NLP的铺垫，很多基础的知识，讲的主要是传统的一些方法，对于深入现代的RNN、LSTM、BERT、Transformer、GPT等等模型可以说是必备的。主要讲了文本的语法和语义关系、不确定性（医学文本）、LDA主题模型、N-gram models、词嵌入是啥（embedding）。解决了我以前只学模型的一些困惑。最后粗略的过了一下大语言模型（LLMs）并给出了几个好的视频链接（台大李宏毅）。

抽样随机算法

master-dragon的专栏

04-25

1742

水塘抽样/蓄水池抽样算法（Reservoir Sampling）问题：对一个数量未知的样本，希望只经过一次遍历就完成随机抽样，即时间复杂度O(n)。因为样本数量未知，因此就不能通过random函数直接随机抽样。解法：我们总是选择第一个对象，以1/2的概率选择第二个，以1/3的概率选择第三个，以此类推，以1/m的概率选择第m个对象。当该过程结束时，每一个对象具有相同的选中概率，即1/n 第m个对象最终被选中的概率P=选择m的概率*其后面所有对象不被选择的概率，即选择m的概率： 1 / m m后某个

改进的SIR模型评估k个重要点算法(Python)

06-27

本资源针对一种边权重存在重尾分布复杂网络，改进原本的SIR模型对TopK重要节点进行性能评估。并将传播过程绘制成可视化图。本资源使用networkx工具包。

抽样算法——【数据科学与工程算法基础】

最新发布

weixin_73074505的博客

03-11

1056

三种方法共同点：抽样时每个个体被抽取到的可能性相等，但各有特点。————抽样算法。

数据挖掘中的抽样算法

09-19

4093

在数据挖掘中，经常会用到抽样，比如欠（过）采样等，总的说来有两种，一种是已知样本总量n，从中随机抽m个样本；另一种是未知样本总量，从中抽取m个样本，这种情况一般是流数据，或者是很大量的数据。问题描述就是从n个数中随机选出m个有序数字，不允许重复选择。这里n>m。下面的算法来自《编程珠玑》，或者《计算机程序设计艺术》 1.当n已知依次考虑整数0，1，2。。。n-1，通过适当的随机测试

随机抽样算法

计算机的艺术

10-28

5381

问题描述：程序的输入包含两个整数m和n，其中m void GenerateKnuth(int m,int n) { int t=m; for(int i=0;i<n;i++) if(Rand(0,n-1-i)<t)//即以t/(n-i)的概率执行下面的语句 { printf("%d\n",i); t--; } } 其中Rand(a,b)随机产生[a

AI算法 - 抽样方法

u013721848的博客

02-11

3667

这里写自定义目录标题1 采样介绍2 采样思想2.1功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入 1 采样介绍在粒子滤波等算法中都提到采样，即从后验概率分布中采样，也有介绍抽样分布。从概率分布p(x) 中获取样本的过程叫采样，大

【概率论】一种非常巧妙的随机抽样算法

qaqwqaqwq的博客

01-16

1037

又因为数学归纳法，我们只需证明第一个元素被抽中的概率等于后面的元素被抽中的概率。要理解这种算法的正确性，我们只需证明每个元素被抽中的几率都是。如果第一个元素被抽中了，那么后面的每个元素被抽中的概率是。如果第一个元素没有被抽中，后面的每个元素被抽中的概率是。根据全概率公式，后面的每个元素被抽中的概率是。这样就证明了抽中每个元素的概率均为。显然每个元素被抽中的概率均为。假设我们现在要在集合。显然，抽中第一个元素。第一个元素没有被抽中。第一个元素没有被抽中。

经典算法：随机抽样

weixin_34326429的博客

12-16

2220

最近发现两个比较有意思的随机抽样算法，分享一下 1. 随机抽样且保持有序需求: 一家公司购买了他们的第一批电脑，该公司的业务主要是民意调查，现在要开发一个程序：程序的输入是选区名列表以及整数 m，输出是随机选择的 m 个选区名列表。通常选区名有几百个，m 通常在 20 ~ 40。程序描述: 程序的输入包含两个整数 m 和 n，其中 m...

采样算法

sinat_25076521的博客

06-22

897

import java.security.SecureRandom;import java.util.BitSet;import java.util.Random;import java.util.concurrent.atomic.AtomicInteger;public class RequestSampler { private final AtomicInteger counter = n...

水塘抽样算法（Reservoir Sampling Algorithm)

博客

04-25

3141

文章目录应用场景算法步骤算法原理代码实现应用场景主要用于解决大数据流中的随机抽样问题，即：当内存有限，数据长度很大，甚至未知，那么如何从中随机选取k个数据，并且要求是等概率。算法步骤水塘抽样的步骤是，只遍历一次，每次都考虑一个问题：当前元素是否被选中，选中后替换之前选中的哪一个元素。采样过程： step1：首先将前k个元素全部选取。 step2：对于第i个元素(i>k)，以概率k/i来决定是否保留该元素，如果保留该元素的话，则随机丢弃掉原有的k个元素中的一个(即原来某个元素被丢掉的概率是1/

LDA与TF-IDF算法研究的深入探讨

- 结合其它算法：探讨如何将LDA和TF-IDF与其他算法如机器学习模型或深度学习模型结合，以提高文本分析的精度。 - 实际应用场景：论文可能专注于将这两种算法应用于特定领域，如新闻分类、情感分析、医疗文档分析等。...