Query Rewrite 相关机器学习人物谱

neel sundaresan
http://labs.ebay.com/neelsundaresan/
neel sundaresan是ebay研究实验室的Sr. Director & Head. 2005年加入ebay。 加入Ebay之前是a startup focused on multi-attribute fuzzy search and network CRM的联合创始人。
论文:http://www.blogjava.net/katsutou/archive/2012/02/18/370232.html RecSys2011-《Recommender Systems at the Long Tail》(Session: Keynote Talks)




Greg Linden
Geeky Ventures的创始人,Principal at Microsoft, Live Labs,Founder & CEO at Findory.com
Senior Manager & Principal at Amazon.com。
他发明了 Amazon 的推荐引擎。他的学术作品超过1600词引用。上过《new york times》、《华尔街》等。
推荐系统必读论文《Amazon.com Recommendations: Item-to-Item Collaborative Filtering  》有691次引用。
blog:http://glinden.blogspot.com/


Paolo Boldi 
query改写方面的大牛。
The query-flow graph: model and applications    (Citations: 35)  
引用最多的文章居然是:
The webgraph framework I: compression techniques    (Citations: 145)  
米兰大学计算机系的副教授
个人主页:http://boldi.dsi.unimi.it/


Joseph A. Konstan
麦克奈特大学教授
CHI Academy (2011-)
ACM Fellow (2008-)
http://www-users.cs.umn.edu/~konstan/
微博上被转载很多的论文《Recommender systems: from algorithms to user experience》


Ricardo Baeza-Yates
He is ACM Fellow and IEEE Fellow.
此人是率先研究关键词推荐的人物之一。
开始在 University of Chile 的Web Research 中心,后来去了yahoo研究院,领导在 Barcelona, Spain and Santiago的yahoo研究院。
Ricardo baeza的主页:http://www.dcc.uchile.cl/~rbaeza/。
Query Recommendation Using Query Logs in Search Engines    (Citations: 101)
Extracting semantic relations from query logs    (Citations: 73)


Doug Beeferman   (s)
研究query聚类的先驱。
论文引用数量叹为观止啊。Agglomerative clustering of a search engine query log   (Citations: 289)
他是lycos搜索引擎公司的研究员。一个古老的搜索引擎 http://www.se-express.com/about/lycos.htm。
他后来还是去了Google,居然去搞语音搜索了。见论文《Google Search by Voice: A Case Study》
主页:http://www.dougb.com/  这人的主页很温馨,搞了很多家庭的链接。


Ed. T. Jaynes
提出了最大熵的模型
Adam Berger
《A Brief Maxent Tutorial》
A Maximum Entropy Approach to Natural Language Processing    (Citations: 1305)
国内有张乐博士的最大熵实现,c++代码写的很好。

Alpa Jain
yahoo研究院数据挖掘少有的女人。
关键词推荐和补全有不少的研究,简直是这方面yahoo最新的接班人。




周涛 
27岁电子科技大学教授
电子科技大学互联网科学中心主任。于2005年获中国科学技术大学学士学位,2010年获瑞士弗里堡大学物理系哲学博士学位,师从汪秉宏教授和张翼成教授,主要研究方向为
复杂性科学、网络科学、信息物理、人类动力学和群集动力学。
2005年发表的论文《Epidemic spread in weighted sacle-free networks》获《Chinese Physics Letters》2008年评出的近5年来最高引用论文奖。截止到2011年5月,论文
SCI总引用次数超过1600次,他引超过1200次,H指数为21。目前只看过他两篇论文《个性化推荐系统》、《solving the apparent diversity-accuracy dilemma of recommender systems》


最大熵模型求解与Della Pietra兄弟
Stephen Della Pietra, Vincent Della Pietra 完成最大熵模型的参数求解方法 IIS(The Improved Iteration Scaling Algorithm)。经典论文《A Maximum Entropy Approach to Natural Language Processing》它是由Adam L.Berger及Della Pietra双胞胎兄弟等提出来的。
《Inducing Features of Random Fields》 是第一第二作者。

《The Improved Iterative Scaling Algorithm-A Gentle Introduction》。



Adam berger
http://www.cs.cmu.edu/~aberger/  (卡内基梅隆大学,好像只是一个PHD,没有说是教授什么的)
最大熵的经典论文:《A Maximum Entropy Approach to Natural Language Processing》,第一作者Adam  berger。
最大熵的IIS算法 Adam berger。但是这个算法不是达拉皮垂兄弟发明的吗?为什么算法推导是他写的?
《The Improved Iterative Scaling Algorithm:A Gentle Introduction》

前面介绍了经典了最大熵算法,接着介绍图模型中的第三个经典算法--HMM ( hidden Markov models)。
这个领域李开复是著名人物之一。
李开复
http://blog.sina.com.cn/kaifulee
《卡内基梅隆大学》计算机博士,写了24篇论文。
他的成名论文,语音识别的 《Speaker-independent phone recognition using hidden Markov models》,被引用340次。


John D. Lafferty
Carnegie Mellon University 卡内基梅隆大学教授(这个大学搞图论的人真是多啊。)
Professor of Computer Science, Machine Learning, and Statistics
条件随机场的经典论文第一作者。
《Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data》


 每年都有人对CRF的综述感觉不满意,因此不断有人重写Conditional Random Fields的介绍。
2007年
《Classical Probabilistic Models and Conditional Random Fields》
Roman Klinger ;Kartrin Tomanek
http://www.roman-klinger.de/


<think>首先,用户的问题是:“我想查询重写 请问查询重写技术”。这似乎是关于数据库查询优化中的查询重写技术。 根据系统指令: - 所有行内数学表达式必须使用$...$格式。 - 独立公式必须使用$$...$$格式并单独成段。 - 使用中文回答。 - 生成相关问题。 - 回答中引用的段落末尾自然地添加引用标识。 - 回答结构清晰,帮助用户逐步解决问题。 - 参考提供的引用内容。 提供的引用: - [^1]: 高级RAG检索中的五种查询重写策略。 - [^2]: Oracle优化器使用成本模型比较执行路径。 - [^3]: LIKE谓词的等价重写。 - [^4]: 查询优化技术概述,包括外连接消除。 用户的问题集中在“查询重写技术”,所以我需要基于这些引用构建一个清晰的回答。 回答结构: 1. **介绍查询重写技术**:简要解释什么是查询重写,为什么重要。 2. **核心原理**:解释查询重写的原理,如语义级匹配、成本模型等。 3. **常见策略和示例**:列出一些常见的查询重写策略,如LIKE谓词重写、外连接消除等,并给出例子。 4. **实际应用**:讨论在数据库或RAG系统中的实际应用。 5. **生成相关问题**:在末尾添加相关问题。 使用中文回答。 确保数学表达式正确:如果涉及数学,如成本模型,可能用到公式。 可能的数学部分: - 在成本模型中,可能有公式如成本比较:$C_{\text{mv}} < C_{\text{base}}$ 表示使用物化视图的成本低于基表。 - 在查询重写中,可能涉及逻辑等价,如$P \implies Q$。 但用户的问题是关于查询重写技术,可能不直接涉及复杂数学。重点在解释概念。 步骤: 1. **开头**:直接回答用户问题,解释查询重写。 2. **主体**: - 定义和重要性。 - 原理:基于引用[^2],成本模型;基于引用[^3][^4],具体策略。 - 策略:如LIKE重写、外连接消除、RAG中的查询重写(从引用[^1])。 - 示例:给出简单例子。 3. **结尾**:总结,并生成相关问题。 引用标识:在引用内容后添加[^1], [^2]等。 生成相关问题:在末尾添加,如“§§相关问题§§”,然后列出几个问题。 完整结构: - 引言 - 详细解释 - 示例 - 相关问题 确保语言流畅、专业。</think>### 查询重写技术详解 查询重写(Query Rewriting)是数据库查询优化中的一项核心技术,旨在将用户提交的SQL查询转换为语义等价但执行效率更高的形式。通过重写查询,数据库系统可以减少I/O开销、CPU计算量或网络传输成本,从而提升整体性能。该技术广泛应用于关系型数据库(如Oracle、MySQL)和现代检索增强生成(RAG)系统中。下面我将逐步解释其原理、常见策略和实际应用。 #### 1. **查询重写的基本原理** 查询重写的核心是**语义等价转换**:在保证查询结果不变的前提下,优化查询结构。数据库优化器(如Oracle的优化器)通过成本模型评估不同执行路径的成本,仅当重写版本的成本更低时才会应用重写[^2]。成本比较公式可表示为: $$C_{\text{rewrite}} < C_{\text{original}}}$$ 其中$C_{\text{rewrite}}$是重写查询的执行成本(如读取物化视图的I/O),$C_{\text{original}}$是原始查询的成本(如直接扫描基表)。如果成本更低,优化器自动触发重写,无需用户干预[^2]。 在RAG系统中,查询重写则用于改进检索过程,例如将用户查询转换为子问题或添加上下文提示,以提高生成答案的准确性[^1]。无论哪种场景,重写都依赖于**语义级匹配**技术,确保转换后的查询在逻辑上等价于原始查询。 #### 2. **常见查询重写策略** 以下是几种主流策略,结合数据库和RAG系统的应用: - **LIKE谓词重写**:将模糊匹配的LIKE操作转换为等价的索引友好形式。例如,查询`SELECT * FROM tableName WHERE name LIKE 'abc%'`可重写为`SELECT * FROM tableName WHERE name >= 'abc' AND name < 'abd'`。这允许数据库利用B-tree索引加速查询,避免全表扫描[^3]。 - **外连接消除**:在查询涉及外连接时,如果连接条件能确保结果无空值,则重写为更高效的内连接。例如: ```sql -- 原始查询 SELECT a.id, b.value FROM tableA a LEFT JOIN tableB b ON a.id = b.id WHERE b.value IS NOT NULL; -- 重写为 SELECT a.id, b.value FROM tableA a INNER JOIN tableB b ON a.id = b.id; ``` 这减少了连接操作的计算开销[^4]。 - **子问题查询与HyDE转换(RAG应用)**:在RAG系统中,查询重写用于分解复杂查询。例如,用户查询“气候变化的影响”可重写为多个子问题(如“气候变化的成因”和“对生态系统的后果”),或使用HyDE(Hypothetical Document Embeddings)技术生成假设性文档作为查询扩展,提升检索相关性[^1]。 - **物化视图重写**:如果存在预计算的物化视图(Materialized View),优化器将查询重写为直接访问视图,而非原始基表。例如,原始查询`SELECT SUM(sales) FROM orders WHERE year = 2023`可重写为`SELECT total_sales FROM sales_summary_mv WHERE year = 2023`,其中`sales_summary_mv`是物化视图。这大幅降低I/O成本[^2]。 #### 3. **实际应用与优势** - **数据库优化**:在传统数据库中,查询重写是查询优化引擎的核心组件,能自动处理数十种重写规则(如谓词下推、常量折叠)。例如,Oracle优化器在解析SQL时实时比较成本,仅当$C_{\text{mv}} < C_{\text{base}}$(物化视图成本低于基表)时应用重写[^2]。这通常能提升查询速度10-50倍。 - **RAG系统**:在高级RAG中,查询重写策略(如迭代检索生成)通过多次重写查询来迭代优化答案生成。例如,回溯提示技术会根据初始检索结果重写查询,以覆盖缺失信息[^1]。这在问答系统中显著提高了准确率。 #### 4. **注意事项** - **重写条件**:并非所有查询都可重写。优化器需确保语义等价性,且成本模型依赖统计信息(如表大小、索引状态)。如果统计信息过时,重写可能失效[^2][^4]。 - **性能权衡**:重写本身有开销(如解析和比较成本),因此仅适用于复杂查询。简单查询可能直接从索引获益,无需重写[^3][^4]。 总之,查询重写技术通过智能转换查询结构,平衡执行效率与结果准确性。在数据库中,它降低了资源消耗;在RAG中,它增强了检索质量。实际应用中,建议结合数据库统计工具(如EXPLAIN PLAN)监控重写效果。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值