基于折扣获取样本:XML 数据定价的抽样方法
在数据市场中,价格和数据质量通常是消费者关注的两个关键因素。然而,传统的数据定价模式往往由供应商单方面设定价格,且数据质量缺乏可协商性。本文提出了一种新的模型,允许消费者通过牺牲一定的数据质量来获得价格折扣,特别聚焦于 XML 文档,并将完整性作为数据质量的衡量维度。
1. 数据市场参与者
数据市场主要有三类参与者:
- 数据提供者 :将数据带入市场,并为数据设定价格。
- 数据消费者 :从市场购买数据并支付费用。
- 数据市场所有者 :作为提供者和消费者之间的中介,与数据提供者协商定价方案,并管理数据交易。
2. 相关工作
- 数据定价 :以往的数据定价文献大多未考虑数据质量,且不允许消费者提出低于供应商设定的价格。而本文提出的方法允许消费者以较低价格购买不完整的数据。
- 子树/子图抽样 :现有工作在子树和子图抽样方面存在不足,要么无法保证抽样的均匀性,要么不能固定样本的大小。
3. 定价函数与抽样问题
- 术语定义
- 树的定义 :考虑的树是无序、有向、带根且加权的。每个节点有一个权重,根节点记为
root(t)。
- 树的定义 :考虑的树是无序、有向、带根且加权的。每个节点有一个权重,根节点记为
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



