ES 向量搜索 function score 报错

reason "function score query returned an invalid score: NaN for doc: 17085

原因是向量搜索定义评分的计算方法consineSimilarity的计算过程中需要对两个向量求模

故,如果全文索引中存在全零向量数据时,可以将consineSimilarity计算换成其它向量相似度计算方法,例如 dotProduct

GET reference/_search
{ "explain": true, 
  "query": {
    "function_score": {
      "query": {
         "multi_match": {
            "query": "清华大学艺术系的小明同学",
            "fields": ["name", "school", "department", "home_address"]
  
          }
      },
      "functions": [
        {
          "script_score": {
            "script": {
              "source": "(cosineSimilarity(params.query_vector, 'text_vector') + 1.0)*0.6", 
              "params": {
                "query_vector": [0.17213014641107321, 0.03529149917147957, 0.021164631815954453, 0.04276578593911642, -0.011539837034197614, -0.040505111467529525, -0.013804620485218865, 0.07954305265937577, -0.03259408482301212, 0.042030898483276985, -0.08187475423584016, 0.02331000497613773, -0.012518793076655677, 0.028751927085989483, -0.0450599553695574, 0.02574408603742391, -0.012067035100387393, 0.08755896933278114, 0.0043671871492196096]
              }
            }
          }
        },
        {
          "field_value_factor": {
            "field": "page_r", 
            "modifier": "log1p", 
            "factor": 100, 
            "missing": 1
          }
        }
      ],
      "score_mode": "max", 
      "boost_mode": "multiply"
    }
  },
  "_source": ["student_id", "school", "name"], 
  "size": 20
}

consineSimilarity替换为

"source": "(dopProduct(params.query_vector, 'text_vector') + 1.0)*0.6", 

首先,text2vec是一个用于文本向量化的R语言包,它可以将文本转换成数值向量,同时提供了一些常见的向量化方法,例如word2vec, GloVe, fasttext等。而Elasticsearch是一个基于Lucene搜索引擎的开源搜索和分析引擎,它支持全文搜索、结构化搜索、地理位置搜索等。 要使用text2vec和elasticsearch向量搜索,一般有以下几个步骤: 1. 使用text2vec将文本转换成数值向量,可以选择合适的向量化方法。 2. 将向量化后的文本存储到elasticsearch中,可以使用elasticsearch的bulk API进行批量插入。 3. 在elasticsearch中创建一个索引,可以选择合适的分词器和搜索器,同时指定向量字段的类型为dense_vector。 4. 执行搜索时,先使用text2vec将查询文本转换成向量,再使用elasticsearch的dense_vector类型的查询进行向量搜索。 下面是一个简单的R语言示例代码,用于将文本向量化并插入到elasticsearch中: ```R library(text2vec) library(elasticsearch) # 加载数据 data("movie_review") # 使用word2vec将文本向量化 model <- create_word2vec(movie_review$review, iter = 10, threads = 4) vectors <- t(t(apply(model$wv, 1, function(x) x / sqrt(sum(x^2))))) # 连接elasticsearch es <- connect(host = "localhost", port = 9200) # 批量插入向量数据 docs <- lapply(seq_along(movie_review$review), function(i) { list( _index = "movie_reviews", _type = "review", _id = i, _source = list( review = movie_review$review[i], rating = movie_review$rating[i], vector = as.list(vectors[i, ]) ) ) }) bulk(es, docs) ``` 在elasticsearch中创建索引和查询时,可以参考官方文档的说明。注意,在使用向量搜索时,需要使用elasticsearch的dense_vector类型的查询,例如: ```json { "query": { "script_score": { "query": { "match_all": {} }, "script": { "source": "cosineSimilarity(params.queryVector, 'vector') + 1.0", "params": { "queryVector": [0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1.0] } } } } } ``` 其中,cosineSimilarity是elasticsearch提供的计算余弦相似度的函数,params.queryVector是查询向量
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值