《AI图像搜索引擎》笔记

本文介绍了文本搜索引擎的发展历程,包括PageRank算法如何提高搜索结果的相关性,并深入探讨了文本搜索引擎的基本结构与实现方法。此外,文章还讨论了从文本搜索过渡到图像搜索的技术挑战与解决方案,如神经网络算法及AlexNet在ImageNet竞赛中的突破。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

《AI图像搜索引擎》笔记

第1章 从文本搜索到图像搜索

1.1 文本搜索引擎的发展
  • 1998年斯坦福学生Larry Page和Sergey Brin创立Google
  • PageRank算法极大提高了搜索结果相关性,几乎垄断了全球搜索引擎市场
1.2 文本搜索引擎的结构和实现
  1. 文本预处理 = 分词(标点+去停词) + 语言处理(Stemming/Lemmatization)

    • 词干提取 eg. -tional -> -tion 词形还原 eg. reading -> read
  2. 建立索引 = 生成词典 + 词语排序 + 生成文档倒排表

    • Node(Term, k) -> Node(Doc_1,freq_1) -> …… -> Node(Doc_k,freq_k)
  3. 搜索 = 合并链表 + 增删节点

  4. 相关性排序
    词频率(TermFrequency,tf):某一文档里的词频文档频率(DocumentFrequency,df):包含词语的文档个数定义词语在文档中的权重:Wt,d=tft,d×log(ndft)将查询语句也看作一个小的文档q⃗=QryVector=(Wq1,Wq2,...,Wqn)d⃗=DocVector=(Wd1,Wd2,...,Wdn)Similarity(q⃗,d⃗)=cos(q⃗,d⃗) 词频率(Term Frequency, tf):某一文档里的词频\\ 文档频率(Document Frequency, df):包含词语的文档个数\\ 定义词语在文档中的权重:W_{t,d}=tf_{t,d}×log(\frac{n}{df_t})\\ 将查询语句也看作一个小的文档\\ \vec{q}=QryVector=(W_{q1},W_{q2},...,W_{qn})\\ \vec{d}=DocVector=(W_{d1},W_{d2},...,W_{dn})\\ Similarity(\vec{q},\vec{d})=cos(\vec{q},\vec{d}) TermFrequency,tf:DocumentFrequency,df::Wt,d=tft,d×log(dftn)q=QryVector=(Wq1,Wq2,...,Wqn)d=DocVector=(Wd1,Wd2,...,Wdn)Similarity(q,d)=cos(q,d)

1.3 搜索引擎的一般结构

在这里插入图片描述

1.4 从文本到图像

人工标注索引;以图查图;神经网络算法;AlexNet以84.7%正确率在ImageNet夺冠

Google 百度 TinEye 淘宝

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值