
读书笔记
文章平均质量分 94
立君在学习
从啥也不会到啥也会
展开
-
(论文阅读-优化器)Selectivity Estimation Without the Attribute Value Independence Assumption
一个包含相同relation中多个属性的查询结果size取决于这些属性的联合数据分布joint data distribution,即,所有属性值组合的频次。为了简化对属性大小的估计,大多数商业系统会假设属性值是互相独立的,并仅针对独立的属性来维护统计数据(通常是直方图)。在实际场景中,这个假设几乎都是错误的,因此估计的结果会非常不准确。在本文中,我们针对高效近似(多维)联合数据分布提出了两个主要可选方案。使用多维直方图使用基于线性代数的奇异值分解(SVD)技术。原创 2024-05-06 22:03:43 · 715 阅读 · 0 评论 -
(论文阅读-优化器)Selectivity Estimation using Probabilistic Models
对于涉及多个属性选择和多个关系连接的复杂查询,其结果大小的估计是数据库查询处理中一项困难而又基本的任务。它出现在基于成本的查询优化、查询分析和近似查询回答中。在本文中,我们展示了如何有效地使用概率图形模型作为跨多个关系的多个属性联合频率分布的精确和紧凑的逼近来完成这项任务。概率关系模型(Probabilistic Relational Models, PRMs)是最近的一项发展,它将图形统计模型(如贝叶斯网络)扩展到关系领域。它们表示表中属性之间以及跨外键连接的属性之间的统计依赖关系。原创 2024-05-06 22:00:17 · 909 阅读 · 0 评论 -
(论文阅读-优化器)Orca: A Modular Query Optimizer Architecture for Big Data
注意group2的best plan需要对T2按照T2.b进行hash-distribute,由于T2原始数据是按照T2.a进行hash-distributed的,而group1的best plan是简单的scan,因为T1已经在T1.a进行了hash-distributed。Group的成员,被称为group expressions,会用不同的逻辑方式(例如,不同的join orders)来达成这个group的目标。目前,这些努力只支持SQL标准特性的一个子集,而且它们的优化仅限于基于规则的。原创 2024-05-06 21:46:53 · 1294 阅读 · 0 评论 -
(论文阅读-优化器)EFFICIENCY IN THE COLUMBIA DATABASE QUERY OPTIMIZER
查询优化是一个数据库系统能够获得重要性能收益的领域。现代数据库应用通常要求优化器具有高可扩展性和效率。Columbia基于Cascades优化框架的自顶向下优化算法,通过对搜索空间结构和搜索算法的精心重构,简化了自顶向下优化器的设计。原创 2024-05-06 11:07:47 · 1372 阅读 · 0 评论 -
(论文阅读-优化器)A Cost Model for SPARK SQL
本文我们为Spark SQL提出了一个新的cost model。这个cost model涵盖了广义的Projection、Selection、Join(GPSJ)查询。cost model考虑了网络和IO成本,以及最相关的CPU成本。执行成本是从Spark生成的物理执行计划开始计算的。Spark在执行GPSJ查询时采用的操作集合是基于集群和应用参数以及一组数据库统计数据来进行代价的分析建模的。原创 2024-05-05 23:53:48 · 1208 阅读 · 2 评论 -
(论文阅读-多目标优化器)Multi-Objective Parametric Query Optimization
经典查询优化根据一个成本度量cost metric来比较查询计划,并将每个计划与一个固定的成本值关联起来。在本文中,我们引入了多目标参数查询优化(Multi-Objective Parametric Query, MPQ)问题,该问题根据多个成本度量比较查询计划,并将给定计划在指定度量上的成本建模为一个依赖于多个参数的函数。例如,一个实例的成本指标可以包括执行时间或货币费用;参数可以表示在优化时未指定的查询谓词的选择性。原创 2024-05-05 23:35:42 · 1489 阅读 · 2 评论 -
(论文阅读-优化器)Volcano-An Extensible and Parallel Query Evaluation System
火山模型Volcano在数据库查询系统的设计中,为查询优化、并行执行和资源收集提供了丰富的环境。火山模型在代数运算符之间使用了一个标准接口,允许简单地添加新运算符和实现运算符。火山模型极具扩展性,它对于新的算子、算法、数据类型和限定类型的方法都提供了极大的扩展性。火山模型包含两个新颖的元操作符:choose-plan元操作符支持动态的查询评估计划,可以通过延迟执行进行优化。exchange-plan元操作符支持分布式数据集内部的操作符并行,以及横向和纵向的操作符并行。原创 2024-05-05 23:26:54 · 1009 阅读 · 0 评论 -
读书笔记-增强型分析:AI驱动的数据分析、业务决策与案例实践
运用人工智能技术,可以使人类社会变得更美好。人们总是期待产品更适合、服务更贴心、生活更便利。在实践中,技术给企业赋能,企业通过优质的产品和服务满足社会,提升人类福祉。很多金融企业已经开始尝试向潜在客户推送更加精准的产品信息,通过智能投顾及产品交叉销售挖掘来满足客户多样化的潜在需求,开发各种人工智能助手协助客户获得更便利的服务体验。高德纳(Gartner)公司提出了客户体验的金字塔模型,如图1所示,根据客户是否需要、客户是否知道、产品服务触达情况细分了六个层次。原创 2024-02-21 21:09:29 · 1723 阅读 · 0 评论 -
如何用数据解决实际问题-读书笔记
目录序我们常说将数据应用于实际业务,但具体要怎样做呢?根据不同的阶段和水平,我们所需的能力可以分为以下4种: 解读数据 掌握观察数据的“视点”(这是驾驭数据的基础) 基本的数据分析方法 掌握通用的整理和分析数据的基本方法 综合技能 将各种方法或思维方式有机结合起来,形成具有整体一贯性的解决问题的故事 高级分...原创 2019-12-10 00:31:09 · 3196 阅读 · 0 评论