大数据、数据流与移动云技术全解析
1. 乐观事务的弊端
乐观事务存在两个主要弊端:插入幻像和高并发时的低吞吐量。插入幻像指的是当一个事务选择了一组行,随后另一个事务插入了符合相同条件的行,那么当第一个事务重新执行查询时,就会产生不同的结果。
在F1中,默认的锁定是行级的,不过可以在模式中更改并发级别。默认情况下,表会进行变更跟踪,除非模式显示某些表或列选择不进行跟踪。每个事务都会创建一个或多个ChangeBatch Protocol Buffers,其中包括主键以及每个更新行的更改列的前后值。
2. 数据分析的自助法技术
2.1 自助法原理
随着用于数据分析的数据集规模不断增大,以及缺乏统计训练的不耐烦用户提出的查询复杂度和多样性的持续增加,在很多情况下,例如探索性查询,提供足够好且及时的答案,而非长时间延迟后给出完美答案变得更为可取。这可以通过将搜索范围限制在数据子集来实现,但在这种情况下,用户除了答案还期望得到答案质量的估计。
自助法技术基于自助替换原则。给定一个集合F和一个随机变量U,为了确定U ≡ u(Y,F)(其中Y = {Y1, Y2, …, Yn}是F的随机样本)的概率分布,会用拟合模型ˆF替换F,从而得到近似:
Pr{u(Y,F) ≤ u | F} ≈ Pr{u(Y ∗, ˆF) ≤ u ˆF}
2.2 自助法的不足
虽然自助法能产生相当准确的结果,但也存在结果不可靠的情况:
- 当模型、统计量和重采样无法近似所需属性时,无论样本大小如何,自助法都会出现不一致性。
- 对于非均匀数据,如果对数据的随机变化建模不正确,就会导致
大数据与移动云技术解析
超级会员免费看
订阅专栏 解锁全文
465

被折叠的 条评论
为什么被折叠?



