coreset construction for machine learning

本文介绍了 coresets 在机器学习中的应用,解释了 coresets 的定义及其如何通过重要性采样产生。同时探讨了如何确定 coresets 的大小及样本选取概率,以及敏感性在 coresets 构建中的作用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

coreset construction for machine learning

最近碰到了coreset,就大概看了一下。把简要的一些内容和大家分享一下(内容有点多,就只挑我认为的关键点)

coreset简介

为什么需要

这个有点多余,基本上面临大数据集的情况,一个是分布式的机器学习方法来进行处理,另一个是对数据集进行提炼,coreset就是为此而生;

什么叫coreset

简单来讲,就是从大数据集中选出一部分小量带权重的数据集,在这部分数据集的模型训练结果和全数据集的训练差别不大。
定义:
|cost(X,Q)cost(C,Q)|<=ε cost(X,Q) | c o s t ( X , Q ) − c o s t ( C , Q ) | <= ε   c o s t ( X , Q )
这里X可以看做是全体数据集,Q可以看做是function,cost是机器学习的成本函数 C是选出来的数据集。满足上述条件的C则被称为 ε ε -coreset

如何产生coreset :via importance sampling

这里关键的数据指标有两个,一是数据集有多大,二十按照什么指标进行挑选其中数据;
每个数据点的挑选按照概率q来进行,一直抽取到m个,挑选后的数据集的权重服从
这里就主要是两个问题,一是如何确定数据集大小m,一个是如何选择m个样本点
μC(x)=μχ(x)mq(x) μ C ( x ) = μ χ ( x ) m q ( x )
这里引入一个概念,sensitivity 评估每个数据点对目标函数的影响
σ(x)=supfQ(x)μ(x)fQ(x) σ ( x ) = s u p f Q ( x ) ∑ μ ( x ) f Q ( x )
s(x)σ(x) s ( x ) 可 以 看 做 σ ( x )
S=μχ(x)s(x) S = ∑ μ χ ( x ) s ( x )
q(x)=μχ(x)s(x)S q ( x ) = μ χ ( x ) s ( x ) S
这里f是我们训练的函数,u是数据集本身的权重;

那下一步重点是m大小的确定,直接放截图吧。
如何确定m
里面这个 gQ(x) g Q ( x ) 搞不懂怎么设计的,但是设计完这个函数后,可以一步步推到到m的大小;

这里针对的q是single query,如何理解single query,我的理解是在整个探索空间的一个函数方式。那其实整个探索空间很大,我们挑选模型,逻辑回归或者其他的时候,其实探索空间很广。这里假定的是我们的w都已经确定了,那么在w不确定情况下,其实是一个很广的搜索空间。针对全部都搜索空间,我们应该如何应对。这里面探讨的主要是vc维,也就是探索空间的维度对coreset的影响。
找时间再写在这里。

另外,如何寻找 σ(x) σ ( x ) 是与具体机器学习算法强绑定的。要计算的还是比较困难的。。。
paper链接放上
http://cn.arxiv.org/pdf/1703.06476v2

### 机器学习的定义及其与算法的关系 #### 定义 机器学习是一种科学方法,旨在通过编程使计算机能够从数据中自动学习[^1]。这种方法不仅依赖于传统的显式指令编写方式,还允许系统基于输入数据逐步改进性能。 #### 学习过程中的核心要素 在监督学习模式下,目标是教会计算机如何完成特定的任务[^5]。这种教学通常涉及提供带有标签的数据集作为训练材料,从而使算法可以识别模式并预测新样本的结果。 #### 数据驱动的学习机制 机器学习的核心在于构建那些可以从已有经验(即历史数据)提取规律性的模型。这些模型经过充分训练之后,在面对未知情况时仍能做出合理决策或估计。 #### 算法的作用 为了实现上述功能,多种类型的机器学习算法被开发出来用于解决不同类型的问题。例如: - **回归分析**:适用于数值型输出变量的情况; - **分类技术**:当响应值属于离散类别时采用此方法; - 及其他更复杂的神经网络架构等高级形式。 此外,还有专门针对大规模数据集设计的方法论——比如利用分布式计算框架来加速整个流程执行速度的同时减少硬件资源消耗[^3]。 综上所述,“machine learning algorithms that learn from data”指的是这样一类程序逻辑结构:它们接受原始事实作为输入源,并通过对这些素材反复迭代优化参数配置直至达到预期精度水平为止的过程描述。 ```python from sklearn.linear_model import LinearRegression # 创建线性回归实例 model = LinearRegression() # 假设X_train, y_train为已知特征矩阵和目标向量 model.fit(X_train, y_train) # 预测新的观测值 predictions = model.predict(X_test) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值