solr 使用 ContentStreamUpdateRequest 中文乱码解决办法

本文介绍了解决使用Solr生成富文本索引时出现中文乱码的问题。通过调整编码设置,确保从文件到Solr请求的数据都采用UTF-8编码,并修改了Solr解析器中的参数解析方式。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

问题描述:

            有solr 生成 富文本索引时,中文出现乱码。我当时的解决办法如下:

环境声明:

            我的Tomcat 已经是utf-8

步骤一:

                  将所有字段转成UTF-8,如下

 

 updateRequest = new ContentStreamUpdateRequest("/update/extract");
   updateRequest.addFile(file);
   updateRequest.setParam("literal.id", "".concat(doc.getId()).concat("-").concat(file.getName()));  
   updateRequest.setParam("literal.file_path",  URLEncoder.encode(file.getAbsolutePath(), "UTF-8") );
   updateRequest.setParam("literal.file_name", URLEncoder.encode(file.getName(), "UTF-8"));
   updateRequest.setParam("literal.form_content", URLEncoder.encode(doc.getContent(), "UTF-8"));
   updateRequest.setParam("literal.title", URLEncoder.encode(doc.getTitle(), "UTF-8"));
 

 

步骤二:将 apache-solr-core-3.6.0.jar  内 org.apache.solr.servlet.SolrRequestParsers.java 中的内部类MultipartRequestParser 的

              parseParamsAndFillStreams方法内的以下代码

 

 if (item.isFormField()) {
          MultiMapSolrParams.addParam(
            item.getFieldName(),
            item.getString(), params.getMap() );
        }
 

 

替换换为

 if (item.isFormField()) {
            MultiMapSolrParams.addParam( item.getFieldName(), URLDecoder.decode(item.getString(), "utf-8"), params.getMap() );
        }
 

 

Ok 到此已经解决了乱码问题。。。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值