《AI图像搜索引擎》笔记

最新推荐文章于 2024-08-28 09:13:09 发布

原创最新推荐文章于 2024-08-28 09:13:09 发布 · 308 阅读

CC 4.0 BY-SA版权

文章标签：

本文介绍了文本搜索引擎的发展历程，包括PageRank算法如何提高搜索结果的相关性，并深入探讨了文本搜索引擎的基本结构与实现方法。此外，文章还讨论了从文本搜索过渡到图像搜索的技术挑战与解决方案，如神经网络算法及AlexNet在ImageNet竞赛中的突破。

文本预处理 = 分词（标点+去停词） + 语言处理（Stemming/Lemmatization）
- 词干提取 eg. -tional -> -tion 词形还原 eg. reading -> read
建立索引 = 生成词典 + 词语排序 + 生成文档倒排表
- Node(Term, k) -> Node(Doc_1,freq_1) -> …… -> Node(Doc_k,freq_k)
搜索 = 合并链表 + 增删节点
相关性排序
$tf）:某一文档里的词频\\ 文档频率（Document Frequency, df）:包含词语的文档个数\\ 定义词语在文档中的权重:W_{t,d}=tf_{t,d}×log(\frac{n}{df_t})\\ 将查询语句也看作一个小的文档\\ \vec{q}=QryVector=(W_{q1},W_{q2},...,W_{qn})\\ \vec{d}=DocVector=(W_{d1},W_{d2},...,W_{dn})\\ Similarity(\vec{q},\vec{d})=cos(\vec{q},\vec{d})$